Am scris cu puţin timp în urmă un articol despre utilitatea fişierului robots.txt împreună cu câteva exemple pentru motoarele de căutare. Fişierul robots.txt este inspectat de majoritatea roboţilor motoarelor de căutare înainte de a intra pe sit, ştiind astfel ce secţiuni le sunt permise pentru indexare.

Cum previi indexarea doar pentru anumite fişiere?

În cazul fişierelor HTML, acest lucru este extrem de simplu, prin adăugarea unui tag META în header-ul paginii.

<meta name="robots" content="noindex" />

În schimb, celelalte tipuri de fişiere precum .pdf, .doc sau .xls nu suportă adăugarea de taguri META pentru a informa roboţii dacă aceste fişiere ar trebui sau nu indexate. Soluţia este oferită de directiva X-Robots-Tag din headerul HTTP.

X-Robots-Tag: noindex
X-Robots-Tag: noarchive
X-Robots-Tag: nofollow
X-Robots-Tag: nosnippet
X-Robots-Tag: follow
X-Robots-Tag: index
X-Robots-Tag: noydir
X-Robots-Tag: noodp

PHP

Luând exemplu un fişier PDF ce este afişat folosind un script PHP.

<?php
// Header - Tipul fişierului
header( "Content-Type: application/pdf" );
// Nu permitem indexarea fişierului
header( "X-Robots-Tag: noindex" );
// Citim şi afişăm conţinutul fişierului
readfile( "exemplu.pdf" );
?>

ASP.NET

Folosind acelaşi exemplu cu un fişier PDF generat de această dată printr-un script ASP.

[...]
HttpWebRequest rWebRequest;
HttpWebResponse rWebResponse;
rWebResponse.ContentType = "application/pdf";
rWebResponse.AddHeader( "X-Robots-Tag: noindex" );
[...]

Folosind .htaccess

Adăugarea directivei X-Robots-Tag în header-ul HTTP este posibilă şi folosind fişierul .htaccess.

<Files ~ "\.(pdf)$">
Header set X-Robots-Tag "noindex"
</Files>

Momentan, directiva X-Robots-Tag este suportată doar de Google şi Yahoo!.

Articole similare