Back to Question Center
0

A Semalt Tippeket ad a bots, pókok és robotok kezeléséről

1 answers:

A keresőmotor barátságos URL-jének létrehozása mellett a .htaccess fájl lehetővé teszi, hogy a webmesterek letiltják bizonyos botokat a weboldaluk eléréséről. A robotok blokkolásának egyik módja a robots.txt fájl. Azonban Ross Barber, a Semalt Ügyfél Menedzser menedzsere azt állítja, hogy látta, hogy néhány bejáró figyelmen kívül hagyta ezt a kérést. Az egyik legjobb megoldás a .htaccess fájl használata, amely megakadályozza a tartalom indexelését.

Mik ezek a botok?

Ezek a keresőmotorok által használt szoftverek, amelyek új tartalmakat törölnek az internetről indexelés céljából.

A következő feladatokat látják el:

  • Látogasson el a
  • Ellenőrizze a HTML kódot hibákért
  • Megmentik azokat a weboldalakat, amelyekhez csatlakozik, és megnézik, hogy milyen weboldalak kapcsolódnak a tartalmához
  • A tartalom indexelése

Bizonyos botok azonban rosszindulatúak, és az e-mail címeket és űrlapokat keresik az Ön webhelyére, amelyek általában nemkívánatos üzenetek vagy spamek küldésére szolgálnak. Mások még biztonsági kiskapukat keresnek a kódodban.

Mi szükséges a webes robotok letiltásához?

A .htaccess fájl használata előtt ellenőriznie kell a következőket:

1. A webhelynek Apache-kiszolgálón kell futnia. Napjainkban még azok a web hosting cégek is, akik tisztességes munkát végeznek, hozzáférést biztosítanak a szükséges fájlokhoz.

2. Hozzá kell férni ahhoz, hogy a webhely nyers szerver naplói legyenek, hogy megtalálhassa azokat a botokat, amelyek meglátogatták weboldalait.

Megjegyzendő, hogy semmilyen módon nem tudsz blokkolni minden káros botot, hacsak nem blokkolod őket, még azok is, akiket hasznosnak tartasz. Naponta új botok jönnek létre, és az idősebbek módosulnak. A leghatékonyabb módja annak, hogy megvédje a kódot, és nehezebbé tegye a botok számára a levélszemét.

A botok azonosítása

A botok azonosíthatók az IP cím vagy a "User Agent String" által, amelyeket a HTTP fejlécekben küldenek. A Google például használja a "Googlebot."

Lehet, hogy szüksége van erre a listára, ha 302 botot kapsz, ha már rendelkezik a botral, amelyet el szeretnél távolítani a .htaccess

segítségével.

Egy másik módja az összes naplófájl letöltése a kiszolgálóról, és megnyitása egy szövegszerkesztővel, a kiszolgáló konfigurációjától függően a kiszolgálón lévő helyük változhat. segítség a webes fogadótól.

Ha tudod, hogy melyik oldalt látogatták meg, vagy a látogatás időpontját, akkor könnyebben jön egy nem kívánt bot. A naplófájlokat ezekkel a paraméterekkel lehet keresni.

Egyszer megjegyezte, hogy melyik botot kell blokkolni; akkor beillesztheti őket a .htaccess fájlba. Kérjük, vegye figyelembe, hogy a bot letiltása nem elég ahhoz, hogy megállítsa. Lehet, hogy új IP-címmel vagy névvel tér vissza.

Hogyan akadályozzák meg őket

Töltse le a .htaccess fájl másolatát. Szükség esetén készítsen biztonsági mentéseket.

1. módszer: IP blokkolás

Ez a kódrészlet blokkolja a botot a 197.0.0.1

IP címmel,

Rendelés megtagadása, Engedélyezés

Megtagadni a 197.0.0.1

Az első sor azt jelenti, hogy a kiszolgáló letiltja az összes megadott lekérdezést, és megadja az összes többiet.

A második sor azt mondja a szervernek, hogy adjon ki egy 403: tiltott oldalt

2. módszer: Felhasználók által blokkolt

A legegyszerűbb mód az Apache újraírási motorjának

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Az első sor biztosítja, hogy az átírási modul engedélyezve legyen. A 2. sor az a feltétel, amelyre a szabály vonatkozik. Az "F" a 4. sorban azt mondja a szervernek, hogy adja vissza a 403: tiltott, míg az "L" azt jelenti, hogy ez az utolsó szabály.

Ezután feltölti a .htaccess fájlt a kiszolgálóra, és felülírja a meglévő fájlt. Idővel frissítenie kell a bot IP-címét. Ha hibát észlel, csak töltsd fel az elkészült biztonsági másolatot.

November 29, 2017
A Semalt Tippeket ad a bots, pókok és robotok kezeléséről
Reply