Fişierul robots.txt în Blogger

Un fişier robots.txt limitează accesul la site-ul tău pentru roboţii motoarelor de căutare, care accesează cu crawlere Web-ul. Aceşti roboţi sunt automaţi şi, înainte de a accesa paginile unui site, verifică dacă există un fişier robots.txt care le cere să nu acceseze anumite pagini. Ai nevoie de un fişier robots.txt numai dacă site-ul tău include conţinut care nu doreşti să fie indexat de motoarele de căutare. Dacă doreşti ca motoarele de căutare să indexeze tot ce se găseşte în site, nu ai nevoie de un fişier robots.txt (nici măcar de unul gol). Fişierul robots.txt al unui site Blogger se află în directorul rădăcină /robots.txt (http://exemplu.blogspot.com/robots.txt) şi nu poate fi modificat de către noi.

Să analizăm fişierul robots.txt al blogului meu (http://www.dolhescu.com/robots.txt):

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.dolhescu.com/feeds/posts/default?orderby=updated

Observăm că acesta conţine două elemente user-agent. Înregistrarea user-agent este un mijloc de identificare a unui anumit crawler sau a unui set de crawlere şi este începutul unui grup de înregistrări. Aşadar în fişierul nostru sunt două grupuri de înregistrări.

Primele două rânduri constituie un grup de înregistrări. Acesta se adresează setului de crawlere Mediapartners-Google iar înregistarea Disallow (interzice) nu specifică nimic ce ar împiedica acest set de crawlere să acceseze. Mediapartners-Google conţine crawlere pentru AdSense şi indexează conţinutul site-ului tău pentru a-ţi oferi anunţuri Google relevante în cazul în care foloseşti AdSense.

Următorul grup de înregistrări se adresează tuturor roboţilor motoarelor de căutare. Observăm înregistrarea Disallow: /search care specifică interzicerea crawlerelor să indexeze tot conţinutul din directorul /search şi subdirectoarelor acestuia precum /search/label. Deci, nu mai folosiţi aşa multe etichete pe post de cuvinte cheie că nu ajută la nimic. Utilzaţi etichetele doar pentru a organiza mai bine articolele. În Instrumentele pentru webmasteri veţi vdea că toate URL-urile etichetelor sunt restricţionate de robots.txt.

Linia Sitemap este o înregistrare non-grup şi înştiinţează roboţii motoarelor de căutare care este adresa URL a sitemap-ului tău pentru o indexare mai rapidă atunci când scrii ceva nou.