In een robots.txt bestand staan richtlijnen voor de zoekmachine wanneer hij uw site crawlt. De spider zal dus altijd eerst het robots.txt bestand ophalen om te kijken of er specifieke zaken zijn waarop hij moet letten.

In het bestand geeft u regel per regel aan of de crawler wel of geen toegang krijgt tot dat deel van uw website. Enkele basisrichtlijnen die u best volgt bij het opstellen van uw robots.txt bestand:

  • U kan uw bestand in eender welke teksteditor maken, maar het moet de naam robots.txt hebben
  • Per site kan u slechts 1 robots.txt bestand opladen
  • Het bestand moet zich in het hoofddomein van uw website bevinden, zoals bijvoorbeeld authority.biz/robots.txt
  • Het bestand moet een UTF-8-tekstbestand zijn. Dit heeft te maken met de teksten die het bevat
  • Uw robots.txt bestaat uit meerdere groepen en per groep heeft u regels met instructies
  • Er is altijd maar één instructie per regel
  • Een groep bevat drie soorten informatie:
    • De user-agent: op wie de groep van toepassing is
    • Welke mappen er geopend kunnen worden (allow)
    • Welke mappen er niet geopend kunnen worden (disallow)
  • U hoeft niet al uw pagina’s op te sommen die geopend mogen worden. Er wordt standaard vanuit gegaan dat een pagina geopend kan worden tenzij er een disallow regel voor is
  • Regels zijn hoofdlettergevoelig!
  • Via “sitemap:” geeft u aan waar de user-agent uw sitemap kan vinden

In principe hoeft er dus niet heel erg veel informatie te staan in uw robots.txt. U geeft aan waar de sitemap zich bevindt en welke pagina’s er verboden zijn om te openen.

Gerelateerde content