Tener un archivo robots.txt bien estructurado es muy importante para cualquier sitio Web, ya que su función es ayudar y guiar a los buscadores a recorrer nuestras páginas a la hora de indexarlas. Es, en definitiva, la forma que tenemos de mostrarle las mejores partes de nuestro sitio y esconder aquellas que no nos interesa que conozca.
Puede que si no le damos una guía el buscador se pierda un poco entre todas nuestras secciones y no llegue a las partes que creemos que son las más importantes. Por este motivo es imprescindible que el robots.txt de nuestro sitio no tenga fallos que hagan que el buscador se olvide de algunas de las secciones más importantes. En definitiva, no solo es importante que los buscadores sepan que nuestra página existe, es muy importante que sepan que existen aquellas partes que más nos interesan.
Existen muchas herramientas que generan automáticamente el robots.txt de una página Web. Estas herramientas pueden ser muy útiles para sitios muy complejos para los que no se ha ido generando este archivo poco a poco, pero será necesario revisarlo manualmente para estar seguros de que se ha generado correctamente y que estamos diciéndole al buscador lo que realmente queremos decirle.
Gracias al robots.txt podemos dirigir de algún modo a los robots para que hagan lo que queremos, hoy queremos hablaros de algunas de las instrucciones más interesantes que podemos darle a los buscadores a través del robots.txt de nuestra página Web.
Elegir el buscador al que nos dirigimos
Habitualmente hablamos de Google porque es el buscador más utilizado en todo el mundo, aún más en España, pero todos los buscadores tienen un robot que se encarga de recorrer todas las páginas de los sitios Web para reconocer su contenido e indexarlo. Como no todos los buscadores tienen las mismas reglas, es posible escribir un robots.txt para distintos buscadores. Simplemente es necesario indicar a cada uno de ellos qué es lo que quieres que lea.
Si quieres que todos los robots lean la información que has subido en tu archivo, el comando User-agent: * hará que todos los robots que lleguen a tu sitio lean el contenido de tu robots.txt. Para dar alguna información más específica a Google, por ejemplo, deberás incluir el comando User-agent: googlebot. De este modo el robot de Google leerá lo que sabe que está destinado para él, pero es importante tener en cuenta que solamente leerá la información destinada para él, por lo que si hay información que debe conocer que sea común al resto de los buscadores, es imprescindible que la repitamos para él, o no la leerá.
Evitar que el buscador encuentre una página de nuestro sitio
Si queremos que los buscadores no muestren alguna de nuestras páginas y actúen como si no existiera debemos utilizar el comando disallow. Al indicar al robot que no rastree una página, éste llegará a ella y no la leerá pero sí aparecerá listada en los resultados de búsqueda porque ha podido acceder a ella. Para evitar que esto suceda debemos utilizar la meta-etiqueta noindex. Con esta etiqueta es posible bloquear una página y también evitar que el robot siga los enlaces que salen de ella.
Para bloquear una página insertaremos la siguiente etiqueta: <meta name=»robots» content=»noindex»>
Para bloquear una página y evitar que el robot rastree los enlaces que salen de ella insertaremos la etiqueta: <meta name=»robots» content=»noindex,nofollow»>
Es importante tener en cuenta que el robot lee primero el robots.txt, por lo que si se utiliza tanto el disallow como la meta-etiqueta, la URL aparecerá en los listados de búsqueda. Para evitarlo no se debe incluir a la página en el archivo y utilizar las meta-etiquetas únicamente.
Conseguir un robots.txt limpio
Cuanto más limpio y ordenado sea nuestro robot.txt más facilidades le estamos dando al robot para que visite nuestra página. La estructura de las URLs y el nombre que le damos a los archivos es muy importante, cuanto más limpios sean será mucho mejor. Algunos consejos a seguir para conseguirlo son los siguientes:
– Evitar fechas en las URLs, causan errores y no dan información interesante.
– No olvidar incluir siempre el \ al final de cada URL, facilitará la tarea a la hora de bloquear solo ciertas páginas o archivos.
– Re-escribe las URL dinámicas fijando una URL que sea lo más consistente posible.
– Utiliza el atributo hreflang para ayudar al robot a distinguir distintas versiones de una página en función de su idioma.
Por su puesto, hay muchas más indicaciones que podemos hacer al robot de Google desde nuestro robots.txt, pero estos son los primeros pasos para que sea lo más útil posible.