Crawl budget reprezintă numărul de pagini pe care Googlebot le accesează și le procesează pe…

Cum să analizezi log files de server pentru diagnosticare SEO
Log files-urile de server conțin informații brute despre fiecare cerere HTTP primită de serverul dvs. inclusiv fiecare acces al Googlebot. Analiza lor oferă o perspectivă unică, directă, neviciată de sampling sau estimări, despre comportamentul real al crawlerului Google pe site-ul dvs.
Este una dintre tehnicile de SEO tehnic cel mai puțin folosite, dar cu potențial ridicat de a descoperi probleme de indexare invizibile cu alte instrumente.
Cuprinsascunde
Cum să analizezi log files de server pentru diagnosticare SEO
Un log file de server înregistrează pentru fiecare cerere: data și ora, IP-ul clientului, URL-ul accesat, codul de răspuns HTTP, dimensiunea răspunsului și user agent-ul. Googlebot se identifică prin user agent-ul „Googlebot” sau „Google-InspectionTool”.
Prin filtrarea log-urilor după user agent Googlebot, obțineți o imagine exactă a ce a accesat Google, când și cu ce rezultat.
Accesarea log files-urilor
Din cPanel
În cPanel, log-urile de acces se găsesc în Raw Access sau Awstats. Descărcați log-urile din Last 24 Hours sau perioada dorită. Fișierele sunt comprimate în format .gz:
# Decompresimare log gzip
gunzip access_log.gz
# Filtrare doar cereri Googlebot
grep -i "googlebot" access_log > googlebot_log.txt
# Numarare URL-uri unice accesate de Googlebot
grep -i "googlebot" access_log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50Prin SSH
Accesul SSH permite analiza direct pe server, fără a descărca fișiere mari. Filtrele grep și awk permit extragerea rapidă a datelor relevante din log-uri de sute de MB.
Ce să cauți în log-urile Googlebot
Distribuția codurilor de răspuns
Analizați proporția codurilor de răspuns pentru cererile Googlebot:
- 200: pagini accesate cu succes, ideal peste 90%
- 301/302: redirecționări, consumă crawl budget suplimentar
- 404: pagini lipsă, indicate de linkuri interne sau externe vechi
- 500/503: erori de server, Googlebot poate reduce crawl rate-ul
Pagini ignorate de Googlebot
Dacă aveți pagini importante care nu apar deloc în log-urile Googlebot, există o problemă de crawlabilitate: blocate în robots.txt, fără linkuri interne, sau cu noindex aplicat incorect.
Frecvența de crawl per URL
URL-urile accesate foarte frecvent de Googlebot sunt cele cu modificări frecvente sau cu mulți linkuri interne spre ele. URL-urile cu crawl frecvent dar fără trafic organic merită investigate, pot fi pagini duplicate sau de valoare scăzută care consumă crawl budget.
Instrumente pentru analiza log files
Pentru volume mari de log-uri, procesarea manuală cu grep este limitată. Instrumente specializate:
- Screaming Frog Log File Analyser, instrument dedicat cu interfață grafică
- Botify și JetOctopus, platforme enterprise pentru site-uri mari
- ELK Stack (Elasticsearch, Logstash, Kibana), soluție open-source pentru volume foarte mari
Concluzie
Analiza log files-urilor de server este o tehnică de diagnostic SEO de nivel avansat care dezvăluie realitatea crawl-ului Google, dincolo de estimările și samplingurile din alte instrumente. Este esențială pentru site-urile mari cu probleme de indexare inexplicabile.
Dacă doriți un audit SEO tehnic avansat care include analiza log files, contactați echipa seodr.ro pentru o evaluare a situației actuale.

