Guia de robot.txt

El archivo robots.txt es una de las formas principales de decirle a un motor de búsqueda dónde puede ir o no en su sitio web. Todos los motores de búsqueda principales admiten la funcionalidad básica que ofrece, pero algunos de ellos responden a algunas reglas adicionales que también pueden ser útiles. Esta guía cubre todas las formas de usar robots.txt en su sitio web, pero, aunque parezca simple, cualquier error que cometa en su robots.txt puede dañar seriamente su sitio, así que asegúrese de leer y entender todo este artículo antes.

¿te sumerges en el SEO como hace la experta en servicios seo barcelona?

¿Qué es un archivo robots.txt?
¿Qué hace el archivo robots.txt?
¿Dónde debo colocar mi archivo robots.txt?
Pros y contras de usar robots.txt
Pro: administrar el presupuesto de rastreo
Con: no eliminar una página de los resultados de búsqueda
Con: no difundir el valor del enlace
sintaxis de robots.txt
La directiva usuario-agente
Los agentes de usuario más comunes para los motores de búsqueda.
La directiva Disallow
Cómo usar comodines / expresiones regulares
Directivas de rastreo de robots.txt no estándar
La directiva de permiso
La directiva de acogida
La directiva de retraso de rastreo.
La directiva de sitemap para XML Sitemaps
Valide su archivo robots.txt
¿Qué es un archivo robots.txt?
Directivas de rastreo
El archivo robots.txt es una de varias directivas de rastreo. Tenemos guías sobre todos ellos y los encontrarás aquí:

Guías de rastreo de guías de Yoast »

Un archivo robots.txt es un archivo de texto que es leído por las arañas de los motores de búsqueda y sigue una sintaxis estricta. Estas arañas también se llaman robots, de ahí su nombre, y la sintaxis del archivo es estricta simplemente porque tiene que ser legible por computadora. Eso significa que no hay lugar para el error aquí, algo es 1 o 0.

También llamado el “Protocolo de exclusión de robots”, el archivo robots.txt es el resultado de un consenso entre los primeros desarrolladores de motores de búsqueda. No es un estándar oficial establecido por ninguna organización de estándares, pero todos los motores de búsqueda principales se adhieren a él.

¿Qué hace el archivo robots.txt?
humanos.txt
Una vez, algunos desarrolladores se sentaron y decidieron que, dado que se supone que la web es para humanos, y como los robots obtienen un archivo en un sitio web, los humanos que lo construyeron también deberían tener uno. Así que crearon el estándar de human.txt como una forma de que la gente sepa quién trabajó en un sitio web, entre otras cosas.

Los motores de búsqueda indexan la web al rastrear las páginas, siguiendo los enlaces para ir del sitio A al sitio B al sitio C y así sucesivamente. Antes de que un motor de búsqueda detecte cualquier página en un dominio que no haya encontrado antes, abrirá el archivo robots.txt de ese dominio, que le indica al motor de búsqueda qué URL de ese sitio puede indexar.

Los motores de búsqueda suelen almacenar en caché el contenido del archivo robots.txt, pero generalmente lo actualizarán varias veces al día, por lo que los cambios se reflejarán con bastante rapidez.

¿Dónde debo colocar mi archivo robots.txt?
El archivo robots.txt siempre debe estar en la raíz de su dominio. Entonces, si su dominio es www.example.com, debe encontrarlo en https://www.example.com/robots.txt.

También es muy importante que su archivo robots.txt en realidad se llame robots.txt. El nombre distingue entre mayúsculas y minúsculas, así que hazlo bien o simplemente no funcionará.

Pros y contras de usar robots.txt
Pro: administrar el presupuesto de rastreo
En general, se entiende que una araña de búsqueda llega a un sitio web con una “asignación” predeterminada para cuántas páginas rastreará (o cuánto tiempo / recursos gastará, según la autoridad / tamaño / reputación de un sitio). y los SEO llaman a esto el presupuesto de rastreo. Esto significa que si bloquea secciones de su sitio desde la araña del motor de búsqueda, puede permitir que su presupuesto de rastreo se use para otras secciones.

A veces puede ser muy beneficioso bloquear los motores de búsqueda para que no puedan rastrear las secciones problemáticas de su sitio, especialmente en sitios donde se debe realizar una gran cantidad de limpieza de SEO. Una vez que haya ordenado las cosas, puede dejar que vuelvan a entrar.

Una nota sobre el bloqueo de parámetros de consulta.
Una situación en la que el presupuesto de rastreo es particularmente importante es cuando su sitio usa muchos parámetros de cadenas de consulta para filtrar y clasificar. Digamos que tiene 10 parámetros de consulta diferentes, cada uno con valores diferentes que se pueden usar en cualquier combinación. Esto lleva a cientos si no miles de URL posibles. Impedir que se rastreen todos los parámetros de consulta ayudará a garantizar que el motor de búsqueda solo detecte las URL principales de su sitio y no entrará en la enorme trampa que de lo contrario crearía.

Esta línea bloquea todas las URL de su sitio que contienen una cadena de consulta:

No permitir: / *? *
Con: no eliminar una página de los resultados de búsqueda como dice la experta empresa en servicios seo barcelona.
Aunque puede usar el archivo robots.txt para decirle a una araña dónde no puede ir a su sitio, no puede usarlo para decirle a un motor de búsqueda qué URL no debe mostrar en los resultados de la búsqueda, es decir, bloquearlo no evitará que se indexe. Si el motor de búsqueda encuentra suficientes enlaces a esa URL, la incluirá, simplemente no sabrá qué hay en esa página. Entonces tu resultado se verá así:

Si desea bloquear de forma confiable una página para que no aparezca en los resultados de búsqueda, debe utilizar una etiqueta noindex de meta robots. Eso significa que, para encontrar la etiqueta noindex, el motor de búsqueda debe poder acceder a esa página.

Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html)
Entonces, si quiere decirle a esta araña qué hacer, una línea de Googlebot relativamente simple será el truco.

La mayoría de los motores de búsqueda tienen múltiples arañas. Utilizarán una araña específica para su índice normal, para sus programas de anuncios, para imágenes, para videos, etc.

Los motores de búsqueda siempre elegirán el bloque de directivas más específico que puedan encontrar. Digamos que tienes 3 conjuntos de directivas: una para *, una para Googlebot y otra para Googlebot-News. Si un bot viene de cuyo agente de usuario es Googlebot-Video, seguiría las restricciones de Googlebot. Un bot con el agente de usuario Googlebot-News usaría las directivas más específicas de Googlebot-News