(Web) Robots, ook wel spiders of crawlers genoemd, zijn stukjes software die automatisch het web
afstruinen, op zoek naar websites en nieuwe pagina's van bestaande websites.
Zoekmachines zoals Google gebruiken robots om sites door te spitten en te indexeren voor hun
database van zoekresultaten.
Middels een op de webserver tussen uw websitebestanden te plaatsen tekstbestand kunnen deze robots
aangestuurd worden.
Het levert u en de robot voordelen op, u kunt bijvoorbeeld bepaalde delen van
uw website buiten beschouwing laten waardoor de werkelijk interessante onderdelen van uw site
sneller worden geindexeerd.
=== Hoe ziet een robots.txt er uit? ===
Het doel van een robots.txt is dus om te voorkomen dat sommige robots bepaalde bestanden indexeren of
om te voorkomen dat alle robots bepaalde delen niet bezoeken. Een voorbeeld om
dit te verduidelijken.
User-agent: google
Disallow: /producten/appels.html
User-agent: *
Disallow: /cgi-bin/
Disallow: /klantensectie/fruit.html
De eerste regel zegt tegen Google dat een bestand in een bepaalde map niet geindexeerd hoeft
te worden, de derde regel is blank, daar staat niets, om aan te geven dat er een nieuwe
opdrachtregel volgt.
De vierde en vijfde regel geven aan dat 'alle zoekmachines' (dus ook Google) de map cgi-bin en
het bestand fruit.html in de map 'klantensectie' niet hoeven te indexeren.
=== Geen garantie ===
Overigens is er geen garantie dat een pagina toch niet ergens opduikt als je een robots.txt gebruikt,
zelfs in Google. De pagina's worden namelijk wel 'gezien' en als er een link is met DMOZ kan het zelfs
zijn dat de informatie daar vandaan opgehaald wordt.
Soms zie je dan ook wel sites met een robots.txt en een opdrachtregel in de broncode dat DMOZ de
gehele site niet mag indexeren.
Alleen een met een wachtwoord beveiligde pagina zal nooit geindexeerd kunnen worden, als u dus zeker
wilt zijn dat niemand, behalve door u gewenste personen, een pagina zien regelt u dit via restrictieve
paginatoegang.
Robots.txt bestanden zijn niet beschermd, anders kunnen ze ook niet bezocht worden door spiders en
de instructies opvolgen.
Daarom kunt u ook iedere robots.txt opvragen. Aardig in dit verband is
wellicht het bestand dat Google aan zijn eigen root heeft toegevoegd:
http://www.google.com/robots.txt
Google geeft zelf ook informatie over Robots:

Vaak wordt er meer geld aan een nieuwe website
uitgegeven dan aan de marketing ervan.
Maar dan een nieuwe auto. De aanschaf is een hoop geld maar toch hebben we dat er
graag voor over.
Tijdens het gebruik van een auto stijgen de kosten boven de aanschafwaarde
uit. Waarom daar wel en aan de marketing van uw bedrijf niet die euro extra uitgeven!