Un robot de búsqueda, bot o araña (para los entendidos también se le llama crawler), es un software que se encarga de rastrear las páginas web en busca de diferentes cosas según el tipo de bot (contenido nuevo, cambios en la estructura web, enlaces, etc.).
Aunque existan bots de muchos tipos, siempre que hablamos de ellos nos viene a la mente los robots o arañas de Google y de otros buscadores, que se encargan de recorrer nuestras webs para indexar su contenido y poder posicionarlos.
Ahora bien, todos queremos indexar en Google y en otros buscadores nuestra web, pero hay ciertas páginas que no nos interesa que las rastreen como archivos internos, páginas no importantes, etc.
¿Cómo hacemos para que los bots solo pasen por las zonas de nuestra web que queramos?
Con el archivo robots.txt.
Antes de que pienses que va a ser muy difícil configurar este archivo quiero decirte dos cosas:
- Lee el artículo hasta el final, ya verás que no es tan complicado como parece.
- Si aun así lo ves complicado, no te preocupes. En este artículo encontrarás un ejemplo de robots.txt perfecto para cualquier web de WordPress que puedes copiar y pegar para usar en tu propio robots.txt.
Veamos ahora qué es robots.txt y para qué sirve.
Contenidos del Post [Ocultar]
- ¿Qué es el archivo robots.txt?
- ¿Para qué sirve el robots.txt?
- Cómo crear el archivo robots.txt en WordPress
- Parámetros y comandos aceptados en el robots.txt
- Solucionar recursos bloqueados en Google Search Console
- Cómo configurar el archivo robots.txt para WordPress
- El probador de robots.txt de Google Search Console
- Conclusiones sobre el archivo robots.txt
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto plano que puedes crear con un simple bloc de notas con el nombre robots.txt (de ahí su nombre).
Este archivo contiene la información que leerán las arañas de los buscadores con el fin de rastrear las partes de la web que este archivo les permita.
Algunos robots hacen lo que les da la gana así que más que permitir, el archivo robots.txt recomienda qué páginas visitar para rastrearlas o indexarlas.
¿Para qué sirve el robots.txt?
Cuando un bot entra en nuestra web, lo primero que hace es mirar si existe el archivo robots.txt y, si así es, lo analiza para saber qué partes de la web puede o debe rastrear y qué partes están bloqueadas para él.
Digamos que el archivo robots.txt contiene las zonas de la web no permitidas para que estos bots no pasen por ahí y las rastreen.
Por lo tanto, este archivo te permite seleccionar qué partes de tu sitio web tienen acceso «restringido» para estos bots. Incluso puedes restringir el acceso solo para un tipo de bot. Ya lo veremos.
En resumen, el archivo robots.txt sirve para:
- Bloquear el acceso de los buscadores a ciertas páginas y directorios de tu web.
- Denegar a los bots el acceso a archivos de tu sitio.
- No permitir el acceso a tu web a unos bots determinados.
- Impedir que se indexe contenido duplicado (páginas duplicadas, por ejemplo) o páginas que tengas de prueba.
- Prohibir el rastreo de URLs que hayas eliminado y que ahora reporten el error 404.
- Disminuir los recursos gastados del servidor (algunos bots consumen muchos recursos).
- Facilitar la indexación de tu web indicando el directorio de tu mapa del sitio o sitemap XML.
A pesar de esto y como ya expliqué antes, debes saber que hay algunos bots (sobre todo los ilegales y maliciosos) que se pasan por alto este archivo.
No olvides que este archivo es público y lo puedes ver en muchísimas webs poniendo /robots.txt al final de su dominio. Así que, por tu bien, ni se te ocurra usarlo para ocultar información privada a los buscadores o cosas por el estilo, porque cualquiera que se meta en tu robots.txt podrá ver qué URLs estás intentando bloquear a los bots.
Cómo crear el archivo robots.txt en WordPress
Crear el robots.txt para WordPress es muy fácil: abre un bloc de notas y guárdalo con el nombre robots.txt. Solo tendrás que subirlo al directorio raíz de tu dominio a través del cPanel o por un cliente FTP como Filezilla.
También puedes crearlo con el plugin Yoast SEO (aquí tienes una guía), tan solo debes ir a la sección de «Herramientas» >> «Editor de archivos» y crear o modificar tu archivo robots.txt.
Más adelante veremos qué debe contener este archivo.
Por regla general, en todas las instalaciones de WordPress ya viene este archivo creado, aunque bastante simple.
El archivo robots.txt de WordPress tendrá por defecto un aspecto parecido a este:
User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.php
Recuerda: Para saber si tienes el archivo creado solo tendrás que introducir /robots.txt al final de tu dominio. Por ejemplo: www.tudominio.net/robots.txt.
Cabe destacar que este archivo no es obligatorio. Pero sí es bastante recomendado sobre todo si quieres mejorar el seo de tu sitio web.
Veamos a continuación qué parametros y configuraciones tienes que tener en cuenta para crear el archivo robots.txt para WordPress.
[thrive_leads id=’1399′]
Parámetros y comandos aceptados en el robots.txt
Los comandos del archivo robots.txt son pocos y muy sencillos.
Estos parámetros fueron fijados por el robots exclusion protocol o Estándar de exclusión de robots en español. La sintaxis que debemos utilizar está basada en este protocolo y hay que aplicarla bien si no queremos equivocarnos al crear el archivo robots.txt.
Además de los comandos, debes tener en cuenta estas reglas:
- No utilices otros comandos diferentes a los permitidos.
- Distingue mayúsculas, minúsculas, signos de puntuación y espacios. Presta atención al escribir los comandos y al nombrar el archivo.
- Puedes utilizar la almohadilla (#) seguida de una frase para escribir comentarios.
- Deja una línea en blanco para separar los grupos de comandos que utilices por User-agent.
Estos son los parámetros principales para utilizar en el robots.txt:
- User-agent: especifica a qué tipo de robots van dirigidos los comandos que pongas a continuación. Aquí tienes una lista de todos los User-agent que hay.
- Disallow: Bloquea el acceso del User-agent (el bot) al directorio o url que pongas.
- Allow: Lo contrario de Disallow. Permite el acceso a la url o al directorio que indiques. Normalmente se utiliza para permitir el acceso a una parte más específica del directorio que se haya bloqueado en el Disallow.
- Sitemap: Sirve para indicar a los bots dónde se encuentra el sitemap o mapa del sitio XML del sitio web.
- Crawl-delay: Se utiliza para indicar un tiempo de retardo (en segundos) entre cada página que el bot rastree. Se suele utilizar para evitar consumos exagerados de recursos. No todos los crawlers (bots) harán caso a este comando.
Además de todo esto, existe dos caracteres extra que se usan como comodines:
- El asterisco (*): Se utiliza como comodín para indicar «todos». Se usa mucho en User-agent: *, para todos los bots; o /*/ para indicar todos los directorios.
- El símbolo del dólar ($): Este símbolo se usa en las extensiones de los archivos y sirve para especificar cualquier archivo que acabe con dicha extensión. Por ejemplo: /*.css$ para indicar todos los archivos acabados en .css.
Solucionar recursos bloqueados en Google Search Console
Hace tiempo que Google informó que bloquear el acceso a los archivos CSS y Javascripts en el robots.txt es perjudicial para el SEO y empezó a enviar mensajes desde Google Search Console informando de este error si tenías bloqueado este tipo de archivos.
Por ello, aquí te explico cómo desbloquear recursos CSS y JS. Abre el archivo robots.txt y copia y pega lo siguiente:
User-agent: GooglebotAllow: /*.css$Allow: /*.js$
Como ya vimos, estos comandos indican al robot de Google que tiene el acceso permitido a todos los recursos CSS y JS.
Cómo configurar el archivo robots.txt para WordPress
Vamos a lo que todo el mundo busca.
¿Existe el robots.txt perfecto para WordPress?
La respuesta es un rotundo NO.
Cada página web tiene páginas diferentes y necesidades distintas.
Es imposible poner el robots.txt perfecto para cada página ya que es algo que hay que mirar web por web.
Pero lo que sí puedo hacer es explicar el mejor archivo robots.txt para WordPress de manera general y que funcionará en todas las webs.
Ya verás que es bastante similar al que tengo yo en esta web. Recuerda que puedes verlo poniendo /robots.txt al final del dominio.
Así que al lío.
A continuación tienes el mejor archivo robots.txt estándar para cualquier web de WordPress. También puedes añadir otros comandos para bloquear algo en particular de tu web.
Recuerda que si ya tienes un robots.txt solo tienes que descargarte por FTP o desde el cPanel el archivo robots.txt que viene por defecto. Una vez lo tengas, ábrelo y modifícalo por lo siguiente:
#Primer Bloque, impedimos que se rastree carpetas de WordPress, el feed, #los comentarios, las búsquedas, las etiquetas...User-agent: *Allow: /wp-admin/admin-ajax.phpDisallow: /wp-loginDisallow: /wp-adminDisallow: /*/feed/Disallow: /*/trackback/Disallow: /*/attachment/Disallow: /author/Disallow: *?replytocomDisallow: /tag/*/page/Disallow: /tag/*/feed/Disallow: /comments/Disallow: /xmlrpc.phpDisallow: /*?s=Disallow: /*/*/*/feed.xmlDisallow: /?attachment_id*Disallow: /search#Segundo BloqueUser-Agent: GooglebotAllow: /*.css$Allow: /*.js$#Sitemap, puedes añadir más de unoSitemap: http://www.tudominio.com/sitemap.xml
En el primer bloque especificamos que, para todos los bots (User-agent: *), se permita el acceso al AJAX (se recomienda permitir el acceso) y se deniegue a directorios que no nos interesa que los rastreen, como las páginas internas del WordPress, páginas de búsquedas, etiquetas, comentarios, etc.
En el segundo bloque desbloqueamos los recursos CSS y JS tal y como vimos anteriormente.
Por último, añadimos la URL de nuestro archivo XML sitemap para indicar a los robots dónde está todo lo que deberían rastrear.
Para saber si tienes un sitemap y cuál es su URL solo tendrás que ir a Google Search Console e ir a Rastreo >> Sitemaps.
Si no lo tienes creado, te recomiendo el plugin Yoast SEO para crear sitemaps. Además, aquí tienes mi guía de configuración de Yoast SEO.
PD: Te recomiendo la guía del sitemap para saber todo lo necesario sobre los mapas de sitio y cómo mejorar el SEO.
El probador de robots.txt de Google Search Console
Para ello nos volvemos a dirigir a Google Search Console, y entramos en Rastreo >> Probador de robots.txt.
En este punto debería salir lo que habías puesto dentro del robots.txt.
Si no es así dale al botón de enviar y vuelve a darle al botón de enviar del paso 3 que pone Solicita a Google la Actualicación.
Ahora solo queda darle al botón rojo que pone probar y si todo está correcto, este botón se cambiará por un mensaje que pone PERMITIDO.
Conclusiones sobre el archivo robots.txt
Ya hemos visto que el archivo robots.txt nos ayuda a recomendar a los crawlers qué páginas indexar en Google (u otro navegador) o qué zonas de nuestra web no queremos que sean rastreadas.
No obstante, también hay otras formas alternativas de impedir la indexación de cualquier página como las metaetiquetas robots y el atributo «noindex».
No quería dejar este artículo sin tocar este tema, y es que si bien el archivo robots.txt es muy importante, para páginas específicas se puede usar el noindex.
Usar el noindex es la forma más correcta de impedir la indexación en ciertas páginas. El robots.txt se utiliza más para impedir rastrear ciertos directorios, archivos y páginas que hayas borrado y no puedas acceder de ninguna otra forma.
Con el plugin Yoast SEO puedes añadir «noindex» a las páginas que necesites simplemente yendo a la zona de edición en WordPress de la página en cuestión y seleccionando «noindex» en el apartado para ello del plugin Yoast SEO.
Y hasta aquí el artículo sobre el archivo robots.txt.
Ahora te toca a ti. ¿Ya sabes cómo crear el archivo robots.txt para tu web de WordPress?
¿Has añadido todos los comandos que necesitas o tienes alguna duda?
Responde en los comentarios y comparte si te ha sido de ayuda.
¡Nos leemos!
Imagen de fondo original diseñada por freepik.