URL Indexada pero bloqueada por robots.txt, ¿qué hago?

    
  

¿Te has encontrado con el mensaje “Indexada, pero bloqueada por robots.txt” en Google Search Console? Es como si quisieras que alguien no entrase a tu casa, pero luego dejases las ventanas abiertas: la intención es buena, pero puede haber problemas.

Si no tienes claro qué significa y cómo solucionarlo, no te preocupes, en este post de NeoAttack te lo explicamos paso a paso.

  ¿Qué significa “indexada pero bloqueada por robots.txt”?

Imagina que Google es como un cartero que intenta entregar una carta en cada buzón que encuentra. Cuando usas un archivo robots.txt, es como si pusieras un cartel en la puerta que dice “No entrar”. Sin embargo, si alguien más menciona tu dirección (un enlace externo), Google puede registrar tu dirección en su lista, aunque no haya podido ver lo que hay dentro de tu casa (el contenido de la página).

En términos técnicos, esto significa que la URL de tu página aparece en el índice de Google, pero no ha podido ser rastreada debido a las instrucciones en el archivo robots.txt. Este problema se reporta en la sección “indexación->páginas” de Google Search Console y puede generar confusión, especialmente si no sabes si esto afecta el SEO de tu sitio.

  ¿Por qué se indexa una página bloqueada por robots.txt?

Esto puede parecer contradictorio, pero ocurre más de lo que piensas. Aunque el archivo robots.txt está diseñado para evitar que los motores de búsqueda rastreen ciertas páginas, no les impide añadirlas a su índice si encuentran referencias externas. Aquí hay algunas razones comunes:

● Directivas noindex incorrectas: Si usas mal la directiva “noindex”, Google podría no saber que no debe mostrar esa URL en los resultados.

● Enlaces externos de otros sitios: Cuando alguien enlaza a tu página, Google puede indexarla, incluso si el acceso está bloqueado.

● URLs antiguas en el índice de Google: Si has cambiado la estructura de tu sitio o eliminado páginas, estas pueden seguir en el índice.

● Sin archivo robots.txt: La falta de un archivo robots.txt permite que Google rastree todo, lo que puede causar problemas con URLs no deseadas.

En resumen, este problema se genera porque Google usa otras fuentes para descubrir URLs, incluso si les pides que no las rastreen.

  Problemas de tener URLs indexadas pero bloqueadas por robots.txt

¿Por qué tener una URL indexada pero bloqueada por robots.txt puede ser un problema? Bueno, cada sitio tiene un presupuesto de rastreo, conocido como crawl budget. Es como el tiempo que tienes para hacer la lista de compras: si lo gastas buscando cosas que no necesitas, te quedarás sin tiempo para lo importante.

Si Google pasa demasiado tiempo indexando páginas bloqueadas o irrelevantes, podría dejar de lado las páginas importantes de tu sitio. Además, si tu servidor tiene recursos limitados, los rastreos innecesarios pueden causar sobrecargas y ralentizar el rendimiento.

Por eso es vital gestionar correctamente qué páginas deben ser rastreadas e indexadas para evitar problemas con el rendimiento y la visibilidad de tu sitio.

  Cómo solucionar el problema de una página indexada, pero bloqueada por robots

Estos son los pasos que debes seguir para solucionar el problema de una URL indexada, pero bloqueada por robots.txt:

  Identificar la(s) página(s) o URL(s) afectada(s)

El primer paso es averiguar qué páginas están causando este problema. Ve a Google Search Console y revisa la sección “Indexación->páginas”. Allí encontrarás una lista de URLs con el estado “Indexada, pero bloqueada por robots.txt”. Esto te dará una visión clara de qué URLs necesitan atención.

  Identificar el motivo de la notificación

Una vez que identifiques las páginas afectadas, pregúntate: ¿por qué están bloqueadas? Algunas razones comunes incluyen enlaces externos inesperados, directivas incorrectas en robots.txt o URLs antiguas que siguen siendo indexadas. Analiza cada caso para determinar la causa exacta.

  Seleccionar qué páginas se deben indexar y cuáles no

Es fundamental decidir qué páginas de tu sitio son importantes para los usuarios y cuáles no. Por ejemplo, páginas de inicio de sesión o secciones de administración no necesitan estar en el índice de Google, mientras que tus productos, servicios o contenido útil sí.

  Diferencias entre impedir indexación desde robots.txt y desde meta-robots

Aquí es donde muchas personas se confunden. Bloquear una URL desde robots.txt impide que Google rastree la página, pero no garantiza que no sea indexada. Por otro lado, usar la etiqueta meta-robots con la directiva “noindex” es como decirle directamente a Google que no incluya esa página en los resultados de búsqueda.

Si necesitas más información, puedes consultar esta guía sobre qué es Noindex para entender cómo utilizar esta etiqueta correctamente.

  Formas de editar el archivo robots.txt

Ahora que sabemos qué URLs queremos bloquear o permitir, es momento de editar el archivo robots.txt. Aquí te explicamos dos formas sencillas de hacerlo:

  1) Editar directamente el robots.txt

Si tienes acceso al servidor, puedes usar un cliente FTP o un editor de archivos en tu panel de control. Abre el archivo robots.txt y ajusta las reglas según tus necesidades. Por ejemplo:

User-agent: *

Disallow: /admin/

Disallow: /private/

Ejemplo de cliente FTP -> FileZilla

Recuerda guardar los cambios y asegurarte de que el archivo esté accesible en tu dominio, por ejemplo, en https://tusitio.com/robots.txt.

  2) Utilizar un plugin o módulo de SEO

Si utilizas una plataforma como WordPress, Prestashop o Magento, puedes simplificar el proceso con herramientas como Yoast SEO o módulos específicos de SEO. Estos te permiten editar el archivo robots.txt directamente desde el panel de administración sin necesidad de conocimientos técnicos.

¿Cómo verificar que tu robots.txt está bien?

Después de realizar cambios, siempre verifica que tu archivo robots.txt esté configurado correctamente. Usa el verificador de robots.txt de Google Search Console para asegurarte de que Google pueda interpretarlo sin problemas.

Nuestro consejo: Contrata NeoAttack como tu agencia SEO

Gestionar correctamente las páginas indexadas, pero bloqueadas por robots.txt es esencial para optimizar el rendimiento de tu sitio y mejorar tu SEO. Recuerda que cada acción que tomes debe estar alineada con tus objetivos de visibilidad y usabilidad.

Si todo esto suena complicado o simplemente prefieres dejarlo en manos de expertos, en NeoAttack estamos para ayudarte. Como la mejor agencia SEO de España, sabemos cómo maximizar la visibilidad de tu sitio en Google mientras optimizamos todos los aspectos técnicos. ¡Contáctanos hoy y transforma tu presencia online!

Suscríbete a nuestra newsletter

Sé el primero en conocer las últimas novedades de marketing

¿Quieres ser mejor que tu competencia?

Otros post que podrían interesarte

Contacto

Si quieres saber cómo trabajamos o quieres más información sobre el método CMI, mandános un email o llama al teléfono de abajo.