Google adjudica un Crawl Budget diferente a cada dominio web. ¿Pero porqué?¿Sabías que Google rastrea todo Internet?¿Sabías que los recursos que necesita para hacerlo suponen el 3% del gasto energético mundial? Desde este prisma, es lógico pensar que Google está obligado a limitar los recursos que emplea a la hora de rastrear y analizar las webs. Pero, ¿En base a qué criterio destina más o menos recursos de rastreo? Vamos a hablar del presupuesto de rastreo, Crawl Budget en inglés, un concepto SEO que es importante tener en cuenta y que debemos optimizar para sacar el máximo rendimiento a nuestra estrategia de SEO On Page.
Contenidos
¿Qué es el Crawl Budget?
Cuando las arañas de rastreo de los motores de búsqueda (Googlebot en el caso de Google) acceden a un sitio web siguiendo enlaces provenientes de otras webs (Backlink), van descubriendo contenido nuevo a indexar. Como a Google le cuesta tiempo y, por tanto, dinero rastrear los casi 2 mil millones de sitios web que hay en internet (según datos de Internet Live Stats), asigna un límite a cada rastreo para evitar despilfarrar recursos, lo que en posicionamiento SEO llamamos Crawl Budget.
Este límite que Google establece para el rastreo de cada dominio, se asigna en forma de tiempo de rastreo. Aunque este Presupuesto de rastreo sea algo en lo que no podemos influir directamente, sí que podemos influir en factores como la autoridad, la accesibilidad, la calidad del contenido y/o la frecuencia de publicación de contenido nuevo o la velocidad de carga.
¿Cómo sé cuánto Crawl Budget tiene mi dominio?
La única forma de conocer el Crawl Budget que Google asigna a tu dominio es mediante Google Search Console. En la barra lateral izquierda, verás abajo del todo la opción “Ajustes”. Dentro de ajustes verás, bajo el encabezado “Rastreo” y las estadísticas de rastreo, junto con la cantidad de solicitudes de rastreo de los últimos 90 días. Además, ofrece la posibilidad de abrir un informe específico con los datos del rastreo.
Ese informe de “Estadísticas de rastreo” de Google Search Console es el que nos indica la cantidad de rastreo que ha recibido nuestro sitio web. Incluso, ofrece un desglose de solicitudes de rastreo por host, por respuesta, por tipo de archivo, por finalidad y por tipo de robot de Google.
Host
Indica qué cantidad de solicitudes está recibiendo cada variante del dominio, como subdominios.
Por respuesta
Hace referencia a los códigos de estado recibidos en las solicitudes de rastreo.
- 200: Proceso correcto.
- 301: Redirección permanente.
- 404: No encontrado / la página no existe.
Por tipo de archivo
Indica la distribución de solicitudes en función del tipo de archivo: documentos HTML, CSS, JavaScript, imágenes…
Por finalidad
Las estadísticas de rastreo por finalidad son importantes, Google no solo rastrea nuestro sitio para descubrir contenido nuevo, también lo hace para actualizar contenido que ya tuviera indexado. La gráfica «por finalidad» muestra el porcentaje de solicitudes de rastreo destinadas a actualización y el porcentaje destinado a detección de nuevo contenido.
Por tipo de robot de Google
Ya sabemos que hay varias versiones de Googlebot en función del contenido a rastrear:
- Googlebot Desktop
- Googlebot Mobile
- Googlebot Image
- Googlebot News
- Googlebot Vídeo.
- Google Mobile AdSense.
- Google AdsBot.
La gráfica «por tipo de robot de Google» muestra el porcentaje de contenido rastreado por cada una de estas versiones de Googlebot.
¿Cómo optimizo el Crawl Budget de mi sitio web?
Recordemos que las optimizaciones que vamos a comentar a continuación no modificarán, en principio, el Crawl Budget que Google asigna a nuestro sitio, pero sí que ayudará a que encuentre el contenido relevante y susceptible de posicionar en las SERP.
WPO / Velocidad de carga
El primero y más obvio es la velocidad de carga, si en el mismo tiempo, Googlebot es capaz de rastrear más páginas de un sitio web porque estas cargan rápido, optimizaremos el Crawl Budget para aprovecharlo al máximo.
Archivo robots.txt y meta etiqueta robots
El archivo robots.txt pueden jugar un papel fundamental a la hora de indicar a los motores de búsqueda qué páginas no tienen permiso para rastrear, de esa forma, redirigirán sus esfuerzos a otras zonas de la web que sí que nos interesa que rastreen.
Corrección de errores
Además de hacer perder tiempo a los usuarios y empobrecer la experiencia de usuario, los enlaces que llevan a páginas de error, las redirecciones y, sobre todo, las cadenas o bucles de redirecciones, hacen perder el tiempo a los robots. Corregir todos esto hará que Googlebot se centre en lo importante, tu contenido de calidad y las páginas de tus productos o servicios.
Thin Content
El contenido de baja calidad o Thin Content es determinante a la hora de tratar con el Crawl Budget. Controlar el rastreo de cualquier contenido de baja calidad o, incluso contenido duplicado, nos ayudará a optimizar el Crawl budget o presupuesto de rastreo. Algunos ejemplos son:
- Atributado de productos
- Etiquetas de entradas o productos (con usar categorías será suficiente).
- Paginaciones de blog o tienda.
Conclusión
Mantener tu sitio web “en forma”, rápida y sin errores, crear contenido de calidad así como controlar las partes de tu web a las que Google puede acceder, hará que Google consiga estirar el Crawl Budget para descubrir y actualizar el contenido existente que tenga más posibilidades de posicionar en Google.
¿Quieres saber más sobre tu Crawl Budget?
¿Necesitas saber cual es el estado de indexación de tu web?¿Quieres saber cuánto Crawl Budget te asigna Google y porqué?¿Tal vez tienes errores en tu web que provocan una bajada de tu presupuesto de rastreo pero no lo sabes? Si quieres hacer consciente cual es la situación real de la indexación de tu website, subsanar errores de rastreo y aumentar tu Crawl Budget…