SEO

Crawl Budget Optimalisatie: doen of niet?

Over crawl budget hoor je de meeste SEO-ers niet snel praten. Crawl budget optimalisatie is namelijk geen directe ranking factor. Maar wat is crawl budget en waarom zou je dit toch willen optimaliseren?

Geschreven door Thomas Storm
Crawl Budget Optimalisatie uitgelegd

Het crawl budget is het aantal crawlopdrachten, de tijd en frequentie dat een zoekmachine bot (bijv. Google bot) besteedt aan het lezen van de content op jouw website. Als marketeer wil je dat Google en andere zoekmachines zo snel mogelijk op de hoogte zijn van veranderingen aan je website en dat ze alles wat jij belangrijk vindt goed kunnen vinden. Zolang ze niet weten dat er nieuwe pagina’s of content is aangemaakt worden deze ook niet meegenomen in de zoekresultaten.

Zorg er dan ook voor dat er geen technische belemmeringen zijn voor de Google bot (en gebruikers) om nieuwe pagina’s te ontdekken. Daarnaast moet je goed nadenken over de website structuur en instellingen in robots.txt en de meta-robots van individuele pagina’s.

Crawl budget optimaliseren doe je zo!

Voer de volgende optimalisaties door om het maximale rendement uit het crawl budget te halen.

1. Sitemap crawl prioriteiten

Zoekmachine bots gaan op zoek naar de sitemap van jouw website. Dat is een pagina waarop een lijst staat van alle url’s (pagina’s) die jouw website rijk is. De sitemap geeft zoekmachines de mogelijkheid voor het eerst nieuwe pagina’s te ontdekken.

Via je sitemap kan je aangeven wat de prioriteiten zijn om bepaalde pagina’s te crawlen. Dat geef je aan van 0 tot 1, met een decimaal achter het getal. Crawl prioriteit 1 betreft pagina’s die dagelijks met nieuwe content geüpdatet worden en pagina’s met een lager getal worden minder vaak geüpdatet.

Gebruik je WordPress, dan kan je met Yoast SEO gemakkelijk deze crawl prioriteiten instellen. Zo hoef je gelukkig niet te programmeren.

2. Robots.txt disallow

Een ander belangrijk document is Robots.txt. Deze is vaak te vinden onder domeinnaam.nl/robots.txt.

In Robots.txt heb je de mogelijkheid bepaalde folders op je website als disallow in te stellen. Daarmee geef je aan zoekmachine bots aan dat de pagina’s in deze subfolders of subdomeinen niet gecrawld mogen worden. Deze pagina’s zullen doorgaans niet snel geïndexeerd worden in de zoekresultaten.

3. Robots.txt block bots

In Robots.txt kan je ook een stukje code toevoegen die bepaalde bots verbiedt de website te crawlen. Je wilt niet dat Google, Bing of Yahoo de toegang tot de website ontzegd wordt, want dat heeft grote gevolgen voor je vindbaarheid.

4. Robots.txt crawl delay

Om de belasting van servers te voorkomen zijn er grote websites waar in de robots.txt een crawl delay voor bepaalde crawl bots is ingesteld. De server geeft de bots dan gefaseerd toegang tot pagina’s. Dit betekent dat er minder pagina’s in een bepaalde tijd gecrawld kunnen worden. Voor snelle indexatie van nieuwe content is dit af te raden.

5. Meta robots noindex voorkomen

Daarnaast ga je met een SEO audit tool, zoals Screaming Frog, na of er pagina’s zijn die voor indexatie in de zoekresultaten zijn uitgesloten. Dit zijn pagina’s die in headcode voorzien zijn van een meta-robots tag die weer zijn voorzien van een noindex. Een noindex is een signaal naar zoekmachines dat de hele pagina niet in de zoekresultaten geïndexeerd mag worden. Zijn dit belangrijke pagina’s voor jou? Verwijder dan de noindex!

6. Interne links met nofollow attribuut

Interne links van de ene naar de andere pagina sturen doorgaans linkwaarde door naar elkaar. Dat is mooi! Want het verbetert de natuurlijke vindbaarheid van pagina’s in Google. Dieper gelegen pagina’s kunnen door interne links vanaf hoger liggende pagina’s sneller gevonden worden door crawl bots én maken meer kans geïndexeerd te worden voor bepaalde zoekopdrachten.

Interne links sturen echter geen linkwaarde meer door wanneer deze als nofollow staan ingesteld. Dat is een signaal dat zoekmachine bots de link niet mogen volgen naar de pagina waar naar toe gelinkt wordt. Dit is voor SEO niet wenselijk en stel je alleen in als je wilt dat de pagina waar de link naar verwijst niet geïndexeerd wordt. Dit is het geval bij privacy gevoelige content als loginschermen, e.d.

7. Status codes die voorkomen moeten worden

Laat Screaming Frog nog maar even openstaan, want we gaan het nog even gebruiken. Haal uit Screaming Frog de volgende rapporten: 3xx inlinks, 4xx inlinks en 5xx inlinks. Deze rapporten geven je inzicht in de pagina’s waar interne links staan naar pagina’s die geredirect (3xx), niet meer bestaan (4xx) of vanwege een serverfout niet worden geladen (5xx). Zorg dat al deze interne links voortaan verwijzen naar een werkende pagina (status 200) zonder onnodige omleidingen.

8. Vermijd te grote afbeeldingen

Met Screaming Frog kan je ook een uitdraai maken van alle afbeeldingen op je website die groter dan 100 KB zijn. De uitdraai van alle afbeeldingen die groter dan 100 KB zijn, geeft je inzicht op welke pagina’s afbeeldingen staan die je moet verkleinen. Naar mate afbeeldingen groter zijn, duurt het langer voordat de pagina geladen is. Dit betekent weer dat de Google bot minder pagina’s per sessie kan bezoeken. Daarna gaat hij weer naar een andere site om die te crawlen en kan het afhankelijk van de autoriteit van jouw website een paar dagen tot enkele weken duren voordat jouw website opnieuw gecrawld wordt. Zorg ervoor dat pagina’s dus zo snel mogelijk laden!

Naast afbeeldingen zijn er ook andere factoren die de laadsnelheid beïnvloeden zoals onder andere: onnodige code, meerdere CSS stylesheets, inline CSS, code die synchroon geladen wordt. Je doet er als webmaster dus altijd goed aan je website voor snelheid te optimaliseren.

9. Canonical tag voor duplicate pagina’s

Met de canonical tag in de head code van een webpagina geef je aan op welke pagina de content origineel is gepubliceerd. Deze tag kan ook naar dezelfde pagina verwijzen (self-referencing canonical tag) als de desbetreffende pagina uniek is. Voorkom dat zoekmachine bots pagina’s moeten crawlen die niet origineel zijn door gebruik te maken van de canonical tag. Zo blijft er meer crawl time over voor relevante content die je graag snel geïndexeerd ziet worden.

Laadsnelheid optimalisatie (UX) vs. Crawl budget optimalisatie?

Laadsnelheid optimalisatie en crawl budget optimalisatie hebben duidelijk overeenkomsten. Bij beide werkzaamheden is het belangrijk dat webpagina’s goed en snel laden. Het verschil zit hem erin dat bij laadsnelheid optimalisatie de gebruikservaring centraal staat en bij crawl budget optimalisatie staan zoekmachine bots centraal met als doel het voorkomen van technische beperkingen bij het lezen van de website.