Omgaan met crawlers

Beperk crawling wanneer het niet nodig is met robot.txt

Een robots.txt-bestand laat zoekmachines weten of ze toegang hebben tot onderdelen van uw site en deze mogen crawlen. Dit bestand, dat de naam ‘robots.txt’ moet hebben, moet op het hoofdniveau van uw site worden geplaatst. U wilt wellicht bepaalde pagina’s van uw site niet laten crawlen, bijvoorbeeld als ze niet in de zoekresultaten weergegeven hoeven te worden omdat ze niet van toegevoegde waarde zijn voor gebruikers.

Er is een aantal andere manieren waarop u kunt voorkomen dat inhoud in zoekresultaten wordt weergegeven, zoals het toevoegen van ‘NOINDEX’ aan uw robots-metatag, het gebruiken van een .htaccessbestand om directory’s te beveiligen met wachtwoorden en het gebruiken van de Webmasterhulpprogramma’s om inhoud te verwijderen die al is gecrawld.

Gebruik veiligere methoden voor gevoelige inhoud

Als u gevoelig of vertrouwelijk materiaal heeft, moet u strengere beveiliging instellen dan alleen een robots.txt-bestand. Dat komt omdat zoekmachines nog steeds kunnen verwijzen naar de URL’s die u blokkeert (door alleen de URL weer te geven, niet de titel of het sitefragment) als er ergens op internet links naar deze URL’s staan (zoals verwijzingslogboeken). Ook kunnen zoekmachines die zich niet aan de Robots Exclusion Standard houden, de instructies in uw robots.txt-bestand negeren.
En ten slotte zou een nieuwsgierige gebruiker de directory’s of subdirectory’s in uw robots.txt-bestand kunnen bekijken en de URL kunnen raden van de inhoud die u niet wilt weergeven. De inhoud coderen of met een wachtwoord of beveiligen via .htaccess zijn veiligere alternatieven.

Gebruik rel=“nofollow” waar nodig

Als u de waarde van het attribuut ‘rel’ instelt op ‘nofollow’, kunt u Google laten weten dat bepaalde links op uw site niet gevolgd mogen worden, en voorkomt u dat de reputatie van uw site in verband wordt gebracht met de pagina’s waarnaar de link verwijst. U voorkomt dat een link wordt gevolgd door rel=“nofollow” toe te voegen aan de anchor-tag van de link.

Wanneer is dit handig?

Als uw site een blog bevat waarin mensen commentaar kunnen geven, zouden links in de reacties uw reputatie in verband kunnen brengen met pagina’s waarvoor u niet kunt instaan. Reactiegedeelten op pagina’s zijn erg gevoelig voor reactiespam (2). Als u voorkomt dat deze links van gebruikers worden gevolgd, brengt u de reputatie waarvoor u zo hard heeft
gewerkt, niet in verband met een spamsite.

Voeg automatisch ‘nofollow’ toe aan commentaar-gedeelten op pagina’s.

Veel blogsoftware zorgt er automatisch voor dat links in gebruikersreacties niet worden gevolgd, maar als dit niet zo is, kunt u dit waarschijnlijk handmatig instellen. Dit advies geldt ook voor onderdelen van uw site waarop door gebruikers gegenereerde inhoud staat, zoals gastenboeken, fora, lijsten met verwijzingen, enzovoort. Als u kunt instaan voor links die derden toevoegen (bijvoorbeeld als u deze persoon vertrouwt), hoeft u het volgen van links niet te blokkeren. Maar als Google de site waarnaar wordt
verwezen als een spamsite beschouwt, kan dit de reputatie van uw eigen site negatief beïnvloeden. Gebruik daarom altijd CAPTCHA´s en controleer eerst de reacties voordat deze ook daadwerkelijk op uw site geplaatst worden.

U kunt ‘nofollow’ ook gebruiken als u zelf inhoud schrijft en naar een website wilt verwijzen, maar uw reputatie hier niet mee in verband wilt brengen. Stel dat u een blogbericht schrijft over reactiespam en u naar een site wilt verwijzen die onlangs reactiespam in uw blog heeft geplaatst. U wilt anderen waarschuwen, dus u neemt de link hiernaar op in uw inhoud, maar u wilt de betreffende site zeker niet van uw reputatie laten profiteren. Dit is een goed moment om ‘nofollow’ te gebruiken.