# # robots.txt für das Spruch-Archiv # http://www.spruch-archiv.com # # # Sitemap mit vielen Spruch-Archiv-Unterseiten # Sitemap: http://www.spruch-archiv.com/data/sitemaps/sitemap.xml # # Generelle Regeln für alle User-agents # User-agent: * Disallow: /api/ Disallow: /config/ Disallow: /data/ # # Wichtig: Alles mit action-, page= oder key= # ist uninteressant für die Bots # Disallow: /*action- Disallow: /*key= Disallow: /*page=error Disallow: /*listdisp= Disallow: /*?last$ # #Disallow: action- #Disallow: key= #Disallow: page=error # #Disallow: /*neworder=1 #Disallow: /*eps- #Disallow: /*order= # # # aber folgende Unterordner sind erlaubt: # Allow: /data/sitemaps/ Allow: /data/smilies.php Allow: /data/img/banner/ Allow: /data/img/v1-reminiscence/ Allow: /data/img/special/ Allow: /data/img/banner/ # # Bitte maximal 1 Seite pro Sekunde crawlen # #Crawl-delay: 1 # # Wenn Spinn3r nicht langsam etwas weniger gierig wird, # dann sperre ich ihn aus # User-agent: Spinn3r Disallow: / #Crawl-Delay: 5 #Disallow: action- #Disallow: key= #Disallow: page=error # # Baiduspider nervt: # crawlt viel zu gierig und ist ohne Nutzen für uns # User-agent: Baiduspider Disallow: / # # Majestic-Bot hat das SA überlastet: # http://www.majestic12.co.uk/projects/dsearch/mj12bot.php # User-Agent: MJ12bot Disallow: / #Crawl-Delay: 5 # # Diese Bots laden ganze Seiten runter # oder füttern keine Search-Engines # Das wollen wir nicht! # User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / # # WIKIPEDIA SAGT: # # Sorry, wget in its recursive mode is a frequent problem. # Please read the man page and use it properly; there is a # --wait option you can use to set the delay between hits, # for instance. # User-agent: wget Disallow: / # # The 'grub' distributed client has been *very* poorly behaved. # User-agent: grub-client Disallow: / # # Doesn't follow robots.txt anyway, but... # User-agent: k2spider Disallow: / # # Hits many times per second, not acceptable # http://www.nameprotect.com/botinfo.html User-agent: NPBot Disallow: / # # A capture bot, downloads gazillions of pages with no public benefit # http://www.webreaper.net/ User-agent: WebReaper Disallow: /