Indexar o desindexar, he ahí la cuestión

Indexar o desindexar, he ahí la cuestión

Hay ciertas ocasiones en las que puede ser conveniente desindexar o retirar nuestro contenido de Google. En el siguiente artículo abordaremos las diferentes casuísticas de desindexación sí, desindexación no. Dependiendo de la situación nos puede interesar tomar unas medidas u otras, sobre todo en función de nuestros objetivos. No siempre desindexar es la mejor opción. Para decidir lo mejor para el SEO de nuestro proyecto, lo primero que tenemos que hacer es entender de qué hablamos cuando usamos las palabras indexar y desindexar.

Qué es la indexación y qué es la desindexación

Indexación

La indexación es el proceso de rastreo y archivado que hacen los bots de los buscadores de todo el contenido de internet con una URL susceptible de ser indexada. Una vez realizado dicho rastreo, los buscadores proceden a crear índices. La creación y ordenación de estos índices se realiza en base a la capacidad de rastreo y a los parámetros o requisitos de calidad del contenido rastreado. Por lo tanto, lo que muestran los buscadores en sus índices, son las URL indexadas que ha logrado rastrear y pasar por su tamiz de calidad.

Crawl budget bloqueando acceso a robots para evitar indexación

Desindexación

La desindexación de una o varias URL puede producirse mediante una petición de desindexación manual o de forma automática por parte de los motores de búsqueda.

La desindexación manual es la acción que la persona responsable de un proyecto web realiza con el fin de eliminar una URL concreta de los índices existentes en los buscadores. Dicha acción se realiza a modo de petición a través de la herramienta habilitada para ello. Es decir, se hace la solicitud al buscador de cuyo índice se quiere hacer desaparecer la URL, para que la elimine definitivamente. En el caso de Google se realiza a través de Google Search Console, en el caso de Bing, Bing Tools.

La desindexación automática se realiza, por ejemplo, cuando la página a la que referencia una URL ha dejado de existir y, a base de recibir un código de error 404 en los sucesivos intentos de rastreo, el motor de búsqueda opta por eliminar la URL de sus resultados sabiendo que si lo mantiene, llevará a los usuarios a una página de error. Pasa lo mismo si la página ha sido redirigida devolviendo un código de estado 301 (permanente) o 302 (temporal) una vez pasado cierto tiempo. Esto sucede también si por ejemplo cuando un dominio no se ha renovado a tiempo haciendo que todo el contenido desaparezca. 

Motivos para desindexar de Google

Indexación por error

Un claro ejemplo de la indexación por error o descuido son las entradas «hola mundo» o “Hello world” que pueden encontrarse en multitud de sitios web. Estos contenidos, que son creados por las plantillas de CMS populares como WordPress para dotar de contenido demo y que resulten atractivos al realizar la instalación inicial, tienen sus propias URL y acabarán indexando si no las eliminamos antes de publicar el sitio web.

Resultado Hello World que no debería estar indexado

Cuando esto pasa, por desconocimiento o por error, muchas URL quedan expuestas a los motores de búsqueda. Si finalmente este contenido demo es indexado, será considerado thin content o contenido de baja calidad o que no aporta ningún valor semántico a nuestro contenido y “reduce” nuestro crawl budget.

Contenido borrado pero no desindexado

Es el contenido que habiendo sido ya eliminado de nuestro sitio web, sigue mostrándose en los resultados de Google. Esto es peligroso porque es susceptible de aparecer en búsquedas y, al hacer clic en él, lleva directamente a la página de error 404. Es necesario tomar medidas lo antes posible para evitar llevar a los usuarios a páginas de error.

Resultado que está dando problemas en las SERP al ser eliminado, habría que desindexar
URL de SEO on-page: desaparece por falta de pertinencia.
Resultado de Seo on Page en las SERPs. Al acceder da error por haber cambiado de URL pero estar la anterior indexada.
Si no se desindexa la URL de los resultados de búsqueda, al clicar en el enlace nos lleva a un error 404 de libro.


Contenido actualizado de index a noindex

Es el contenido que durante un tiempo determinado, ha sido público y que por decisiones estratégicas basadas en poner el foco en otras URLs, obsolescencia del contenido o falta de pertinencia, deja de ser contenido público. Las URL sigue existiendo pero pasa a estar etiquetadas de index a noindex. 

Indexabilidad de política de privacidad
Política de privacidad indexable y abierta a bots

El ejemplo claro se da en las páginas de políticas de cookies, privacidad, aviso legal, carritos de compra, políticas de devolución, transporte, etc.

Resultado de Política de privacidad. URL indexable que aparece en Google
Política de privacidad indexable y abierta a bots: aparece en los resultados de búsqueda

Al haber pasado cierto tiempo publicadas e indexables, son URLs que ya muestra Google en sus índices.

Pero es cuando etiquetamos una URL como noindex es precisamente para que no se muestre en dichos resultados por lo que toca desindexar esas URLs sí o sí.

Indexabilidad de política de privacidad
Política de privacidad no indexable y cerrada a bots
Resultado de Política de privacidad. URL que no indexable que aparece en Google
Política de privacidad no indexable y cerrada a bots: aparece en los resultados de búsqueda por no desindexarla

Contenido indexado de subdominios

Hay ocasiones en los que se usan subdominios para remaquetar, mejorar y/u optimizar las webs. Son sites enteros montados bajo un subdominio que si no recordamos desindexar desde el primer momento, pueden llegar a ser rastreadas por Google. Si esto ocurre, el contenido del subdominio puede aparecer en las páginas de resultados, vinculados además al dominio principal. Esto puede perjudicar gravemente al dominio principal al incurrir en la indexación del mismo contenido o similar (contenido duplicado) y mostrarlo bajo el paraguas del subdominio.

Subdominio indexado por error
Subdominio indexado por error tal y como aparece en Search Console.

Control de Crawl Budget

El crawl budget es el presupuesto (tiempo) que los motores de búsqueda dedican a nuestros sitios web en base a la cantidad de contenido que creamos periódicamente. Es decir, la cantidad de veces que el bot de rastreo pasa por nuestro sitio web para descubrir nuevos contenidos.

Por simplificarlo… un sitio web que genera contenido cada hora (medios de comunicación), tendrá un crawl budget alto y Google lo rastreará frecuentemente. Por contra, un sitio web que no genera contenidos nuevos, tendrá un crawl budget mínimo y googlebot lo rastreará con una frecuencia mucho menor.

Indexabilidad crawl budget
¿En qué URLs pones el foco de la indexación?

Si optimizamos nuestro crawl budget eligiendo qué se rastrea y qué no, Google asignará recursos a rastrear páginas nuevas y a volver a rastrear páginas ya existentes en busca de cambios en las mismas. Si no lo hacemos, el crawl budget se diluirá y reducirá entre todas las páginas creadas, incluídas las consideradas thin content y estaremos desperdiciando el tiempo de rastreo asignado.

Cómo desindexar URLs en Google

Si hemos tomado la decisión de solicitar la desindexación de contenidos que ya no queremos que aparezcan en las SERP, tendremos dos vías para hacerlo.

Quitar contenido obsoleto de la Búsqueda de Google

Esta vía de desindexación es perfecta, tengamos o no la propiedad del sitio web cuya URL queremos retirar de la búsqueda de Google. Para hacer uso de la misma, solamente tendremos que hacer una nueva solicitud a través de la herramienta de Quitar contenido obsoleto de Google y esperar a que desaparezca. Pero hay una condición importante que puede hacernos optar por la segunda vía: la herramienta solo funciona con páginas o imágenes que ya se hayan modificado o quitado de la web. Es decir, tienen que devolver un código de estado de error 404.

Retirar y desindexar contenido obsoleto de la búsqueda de Google en Search Console

Retirada de URLs desde Google My Business

Esta segunda vía de desindexación es la recomendada si ya tenemos verificado nuestro sitio web en Google Search Console ya que nos dará un mayor control sobre lo que queremos hacer y no necesita de una aprobación previa (no necesitamos que de error 404). Si ya tienes un sitio web verificado, podrás retirar una URL o grupo de URLs por un periodo de 6 meses.

Retirada y desindexación temporal de URL en Google Search Console

Alternativas a la desindexación

No siempre desindexar es la mejor opción. Tenemos que tener en cuenta que además de la autoridad de dominio, existe la autoridad de página (Page Authority). Si por cualquier motivo anteriormente mencionado queremos retirar de los resultados de búsqueda una página, tendremos que revisar la autoridad de dicha página para tomar la mejor decisión. Si la URL de la página a eliminar tiene cierta autoridad, puede ser más interesante hacer una redirección 301 que transfiera dicha autoridad, a una página alternativa para no perder el esfuerzo invertido en esa URL.

Conclusiones

Como dice el refranero popular, es mejor prevenir que curar. En muchas ocasiones, todo lo expuesto anteriormente es fácilmente evitable. Para evitar sustos posteriores tendremos dos opciones:

  • Si son contenidos que deben existir pero no queremos que aparezcan en los resultados: página de cookies, textos legales… basta con bloquear el acceso a robots marcando las URLs que no queramos que aparezcan en los resultados de búsqueda mediante la etiqueta para robots “noindex”
  • Si son contenidos que no deben existir. Es mejor “pasar la escoba” antes de publicar la web y hacer una limpieza de contenidos que no queramos que aparezcan en la versión final como páginas de prueba o contenidos demo.

¿Necesitas auditar el estado de indexación de tu web?

Si crees que puedes estar sufriendo de problemas de indexación, podemos ayudarte. Una auditoría SEO puede sacar a la luz problemas que puedan estar reduciendo el alcance orgánico de tus resultados en Google. Los errores 404, redirecciones mal realizadas u obsoletas, o contenido basura que baja tu presupuesto de crawleo, entre otros, pueden ser tus mayores enemigos… Si quieres saber más,

Indexar o desindexar, he ahí la cuestión
Scroll hacia arriba