Definición de robots.txt
Robots.txt es un tipo de archivo de texto que dicta recomendaciones de indexación y comportamiento para arañas o robots.
Provenientes del motor de búsqueda, visitan cada cierto tiempo los sitios web y rastrean el contenido por medio de arañas.
Se trata de archivos públicos, es decir, cualquiera puede tener acceso a verlo y saber qué se ha hecho. Así, si alguien quisiera curiosear en los archivos indexados de otro, podrá verlos.
Los comandos a utilizar vienen del llamado Robot Exclusion Protocol (REP), un convenio universal cuya sintaxis debes seguir:
- Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales).
- Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios.
- Cada grupo User-agent/Disallow debe estar separado por una línea en blanco.
- Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#).
Los comandos más importantes son para usar robots.txt son:
- User-agent: *: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
- Disallow: Deniega el acceso a un directorio o página concreta.
- Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
- Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
- Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
- Algunos de los robots más conocidos son, hasta el momento, Googlebot (de Google), Yahoo_Slurp (de Yahoo) y Msnbot (de Bing).
Función de robots.txt
Antes que nada, este archivo no es indispensable. Se puede crear solamente cuando se quiera impedir que ciertas páginas o directorios aparezcan en los resultados de búsqueda.
Por otro lado, puedes entender el archivo robots.txt como una lista de robots no admitidos. Esto anterior te permitirá restringir el acceso a tu página web selectivamente.
Ahora bien, como robot o araña, son programas usados por los buscadores para rastrear la web. Al llegar a tu página web, lo primero en hacer es buscar el archivo: robots.txt. Dependiendo de lo que éste diga en él, continuará en la misma página o irá a otra.
Para generarlo es necesario crear un documento de texto con el nombre: robots.txt, y subirlo a la raíz de tu dominio.
Lo más sencillo es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar.
Entre sus características tenemos que:
- Este tipo de ficheros debe ser único en un sitio web, salvo que existan subdominios. De ser como éste, deberemos agregar robots para cada uno de los subdominios y otro para el principal.
- Este fichero debe ser creado en un documento de texto normal sin formato.
- Se ha de tener cuidado con los “urls” pues son sensibles a mayúsculas y minúsculas. Sobre todo, también tener en cuenta que no ha de dejarse espacio en blanco entre líneas.
- Es importantísimo respetar el nombre del fichero: robots.txt, para que sea encontrado fácilmente por los robots.
Beneficios de robots.txt
- Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
- Bloquear el acceso a archivos de código o utilidades
- Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
- Indicar la localización del mapa del sitio en XML (sitemap).
Aun con todo esto, hay que tener en cuenta que hay archivos que ignorarán las instrucciones del archivo. Los malware y o robots maliciosos especialmente. Como dijimos arriba, el archivo es público, por lo que cualquiera puede verlo escribiendo: www.example.com/robots.txt.
Ejemplos
Antes que nada, recuerda que no hay un archivo robots.txt universal. Según la configuración de tu sitio puede que necesites añadir, modificar o quitar restricciones.
Ahora bien, supongamos que tenemos una página, digamos, http://www.facebook.com. Agregaremos /robots.txt, quedando: http://www.facebook.com/robots.txt. El slash (/) se agrega, dependiendo de si, no está al final del url.
Luego, agregamos:
User-Agent: *
Disallow: /wp-
Disallow: /ir/
Allow: /wp-content/uploads/
Sitemap: https://ignaciosantiago.com/sitemap_index.xml
Ahora es importante que conozcas cada una de las líneas:
- Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
- Deniego el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
- Deniego el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo)
- Permito el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desautorizado
- Indico la ruta donde se encuentra el mapa XML de mi página web.
Fuentes
- webconfs.com. (s/f). What is Robots.txt. Recuperado el 18/12/2017 de: www.webconfs.com
- Robots.txt. (s/f). About / robots.txt. Recuperado el 18/12/2017 de: http://www.robotstxt.org/
- Freefind. (s/f). How to use Robots.txt. Recuperado el 18/12/2017 de: https://www.freefind.com/