Werbung
ungeliebte Bots und Crawler aussperren
Diese Webseite ist zwar noch nicht allzulange online, doch haben Bots und andere ungeliebte Gäste sie bereits gefunden.
So wird versucht automatisiert Beiträge - Spam Postings - zu erstellen, verursachen Traffic und machen die komplette Statistik für den Webmaster unbrauchbar. Hier stelle ich nun kurz vor, wie man sich vor solchen Gästen schützen kann.
Am besten geht dies über eine .htaccess Datei, welche im Hauptverzeichnis des Webs abgelegt wird. In der Datei wird erst definiert welche Gäste wir nicht wünschen, und dann eine Regel zum aussperren der Selbigen.
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# schlechte Bots
SetEnvIfNoCase User-Agent "^$" bad_bot
SetEnvIfNoCase User-Agent "^MJ12bot/v?1\.[01]\.[0-9]{1,2}" bad_bot
SetEnvIfNoCase User-Agent "^Java.*" bad_bot
SetEnvIfNoCase User-Agent "^anonymous" bad_bot
SetEnvIfNoCase User-Agent "^BlackWidow" bad_bot
SetEnvIfNoCase User-Agent "^Bot mailto:craftbot@yahoo.com" bad_bot
SetEnvIfNoCase User-Agent "^ChinaClaw" bad_bot
SetEnvIfNoCase User-Agent "^Custo" bad_bot
SetEnvIfNoCase User-Agent "^DISCo" bad_bot
SetEnvIfNoCase User-Agent "^Download Demon" bad_bot
SetEnvIfNoCase User-Agent "^eCatch" bad_bot
SetEnvIfNoCase User-Agent "^EirGrabber" bad_bot
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot
SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot
SetEnvIfNoCase User-Agent "^Express WebPictures" bad_bot
# und so weiter
# Regel zum aussperren
<FilesMatch "(.*)">
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</FilesMatch>Die Angabe SetEnvIfNoCase prüft die angegeben Variable - in unserem Fall "User-Agent" - auf den dahinter angegeben regulären Ausdruck. Passt der reguläre Ausdruck, wird die als letztes definierte Variable gesetzt.
2
3
4
SetEnvIfNoCase - Art der Prüfung, keine Unterscheidung zwischen Groß- und Kleinschreibung
User-Agent - Was soll geprüft werden
"^BlackWidow" - gesuchter Ausdruck, hier: "beginnend mit BlackWindow"
bad_bot - Variable "bad_bot" setzenKommentare
aktuell liegen noch keine Kommentare vor
Trackbacks
aktuell sind keine Trackbacks vorhanden