Definición de robots.txt

Robots.txt es un tipo de archivo de texto que dicta recomendaciones de indexación y comportamiento para arañas o robots.

Provenientes del motor de búsqueda, visitan cada cierto tiempo los sitios web y rastrean el contenido por medio de arañas.

Se trata de archivos públicos, es decir, cualquiera puede tener acceso a verlo y saber qué se ha hecho. Así, si alguien quisiera curiosear en los archivos indexados de otro, podrá verlos.

Los comandos a utilizar vienen del llamado Robot Exclusion Protocol (REP), un convenio universal cuya sintaxis debes seguir:

  • Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales).
  • Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios.
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco.
  • Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#).

Los comandos más importantes son para usar robots.txt son:

  • User-agent: *: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
  • Disallow: Deniega el acceso a un directorio o página concreta.
  • Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
  • Algunos de los robots más conocidos son, hasta el momento, Googlebot (de Google), Yahoo_Slurp (de Yahoo) y Msnbot (de Bing).

Función de robots.txt

Antes que nada, este archivo no es indispensable. Se puede crear solamente cuando se quiera impedir que ciertas páginas o directorios aparezcan en los resultados de búsqueda.

Por otro lado, puedes entender el archivo robots.txt como una lista de robots no admitidos. Esto anterior te permitirá restringir el acceso a tu página web selectivamente.

Ahora bien, como robot o araña, son programas usados por los buscadores para rastrear la web. Al llegar a tu página web, lo primero en hacer es buscar el archivo: robots.txt. Dependiendo de lo que éste diga en él, continuará en la misma página o irá a otra.

Para generarlo es necesario crear un documento de texto con el nombre: robots.txt, y subirlo a la raíz de tu dominio.

Lo más sencillo es crearlo a mano, mediante el bloc de notas o cualquier aplicación similar.

Entre sus características tenemos que:

  • Este tipo de ficheros debe ser único en un sitio web, salvo que existan subdominios. De ser como éste, deberemos agregar robots para cada uno de los subdominios y otro para el principal.
  • Este fichero debe ser creado en un documento de texto normal sin formato.
  • Se ha de tener cuidado con los “urls” pues son sensibles a mayúsculas y minúsculas. Sobre todo, también tener en cuenta que no ha de dejarse espacio en blanco entre líneas.
  • Es importantísimo respetar el nombre del fichero: robots.txt, para que sea encontrado fácilmente por los robots.

Beneficios de robots.txt

  • Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
  • Bloquear el acceso a archivos de código o utilidades
  • Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
  • Indicar la localización del mapa del sitio en XML (sitemap).

Aun con todo esto, hay que tener en cuenta que hay archivos que ignorarán las instrucciones del archivo. Los malware y o robots maliciosos especialmente. Como dijimos arriba, el archivo es público, por lo que cualquiera puede verlo escribiendo: www.example.com/robots.txt.

Ejemplos 

Antes que nada, recuerda que no hay un archivo robots.txt universal. Según la configuración de tu sitio puede que necesites añadir, modificar o quitar restricciones.

Ahora bien, supongamos que tenemos una página, digamos, http://www.facebook.com. Agregaremos /robots.txt, quedando: http://www.facebook.com/robots.txt. El slash (/) se agrega, dependiendo de si, no está al final del url.

Luego, agregamos:

User-Agent: *

Disallow: /wp-

Disallow: /ir/

Allow: /wp-content/uploads/

Sitemap: https://ignaciosantiago.com/sitemap_index.xml

Ahora es importante que conozcas cada una de las líneas:

  1. Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
  2.  Deniego el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
  3.  Deniego el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo)
  4. Permito el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desautorizado
  5. Indico la ruta donde se encuentra el mapa XML de mi página web.

Fuentes

  • webconfs.com. (s/f). What is Robots.txt. Recuperado el 18/12/2017 de: www.webconfs.com
  • Robots.txt. (s/f). About / robots.txt. Recuperado el 18/12/2017 de: http://www.robotstxt.org/
  • Freefind. (s/f). How to use Robots.txt. Recuperado el 18/12/2017 de: https://www.freefind.com/