Cómo optimizar el Crawl Budget de Google

Crawl Budget

November 29, 2016

Author: Sascha Lienesch

Write a comment

Hay miles de millones de páginas web en Internet, y Google y otros motores de búsqueda tienen el reto de analizarlos todos para evaluar e incluir en el índice el contenido más adecuado. Y como ni siquiera Google tiene la capacidad de investigar cada sitio todos los días, ha creado para cada página un crawl buget o presupuesto de rastreo. Por supuesto, Google no da ningún dato exacto acerca del número de páginas que debe rastrear por dominio.

La condición es que Google pueda acceder a los dominios en las SERPs y analizarlos para determinar la clasificación que les corresponde a las páginas que se rastrean. Como hemos dicho, el budget crawling se asigna de forma individual para cada dominio y determina con qué frecuencia y a qué profundidad van han indagar los rastreadores en cada página. El número de URLs que se rastrean dependerá de varios factores:

  • Antigüedad del dominio: cuanto más antiguo sea el dominio, mejor.
  • Velocidad de carga del sitio web: cuanto más rápido, mejor.
  • Alcance de la web y actualidad del contenido.
  • Backlinks naturales de páginas de buena calidad.
  • La accesibilidad durante el rastreo (el servidor debe ser estable).

En la Google Search Console se puede ver cuando el robot de Google estuvo por última vez en la página web y el número de páginas que rastreó; a través del menú Rastreo> Estadísticas de rastreo. Aquí ponemos un ejemplo de una página web pequeñita:

Search Console Estadísticas de rastreo

Límite del presupuesto de indexación

El número de páginas que se pueden indexar está presupuestado. Es decir, cada sitio “importante” recibirá más presupuesto para indexar más páginas, tanto para páginas HTML normales como para imágenes. Toda esta información de la indexación también se puede ver en la Google Search Console, en la página principal “Google Índex”> “estado de indexación” a través de una gráfica.

Search Console Estado de indexación

La diferencia principal entre el Crawl budget y el índex Budget reside en que en la Google Search Console se muestran las páginas con errores 404 (no encontradas). Estas páginas son rastreadas, generan un mensaje de error y, por lo tanto, no se incluyen en el índice.

¿Por qué es importante observar el presupuesto de rastreo?

El número de páginas que debe ser rastreado está limitado por razones particularmente importantes, ya que el bot de Google rastrea las páginas que desea tener incluidas en el índice. El contenido duplicado o irrelevante que no están en el índice, también debe excluirse del rastreo. Este tipo de optimización es importante ya que no se sabe el número exacto de presupuesto de rastreo asignado a cada página, por lo que es importante mantener el sitio web optimizado y excluir las páginas que no queremos que sean rastreadas.

¿Qué se puede hacer para optimizar el crawl Budget?

robots.txt

El archivo robots.txt es un archivo de texto que se sube en el directorio raíz. A través de este se puede indicar al rastreador que evite ciertos directorios. A menudo, los archivos del sistema de gestión de contenidos pueden excluirse del rastreo. El crawl budget no accede a estas páginas porque ni siquiera están expuestas. Algunos ejemplos que se incluyen son las páginas de inicio de sesión, el impressum, las páginas de protección de datos, etc.

Canonical Tag

En las tiendas online a menudo sucede que hay variantes diferentes de un mismo producto. En el mundo de la moda, por ejemplo, nos encontramos las mismas prendas de vestir, pero con diferentes colores o tamaños. Dependiendo de cómo esté organizada la red de la tienda, iremos creando nuevas direcciones URL para cada variante. Sin embargo, los textos de la descripción del producto son siempre casi idénticos y este es el contenido duplicado que debe evitarse. Aquí se puede utilizar la etiqueta canonical, se incluye en el código fuente y redirige a los motores de búsqueda. No obstante, la etiqueta Canonical es sólo una recomendación de Google, no una obligación, ya que el crawl buget se sigue consumiendo porque Google debe encontrar y rastrear el canonical tag de todos modos.

Enlaces internos

Es muy importante que nuestro dominio esté bien enlazado de forma interna. El rastreador de Google va siguiendo los enlaces internos dentro de la página por lo que se aprovecha mucho mejor el presupuesto de rastreo. La creación de enlaces internos debe llevarse a cabo de forma sistemática, en un post anterior del blog, tratamos los detalles acerca de cómo mejorar los enlaces internos.

Jerarquía plana

Lo más recomendable es diseñar una arquitectura de la página sencilla, el número de clics debe ser lo más corto posible. En el apartado Onpage de XOVI Suite puedes obtener una visión general muy buena de la estructura web y el número de clics dentro de tu página web.

Jerarquía plana

Mapa del sitio

Establecer un mapa del sitio XML, que se actualice constantemente e incluirlo en la Google Search Console. Aquí deben estar incluidas todas las páginas más importantes ya que esto ayudará a Google a distinguir lo importante de lo que no lo es. Además, en la Google Search Console también se mostrará si hay algún problema con el mapa del sitio.

Search Console Sitemaps

Actualidad

Es muy recomendable actualizar de vez en cuando el contenido existente. Google se dará cuenta de que la página se mantiene actualizada hasta la fecha y esto traerá consigo efectos positivos en el presupuesto de rastreo, ya que un artículo o contenido actualizado siempre es bueno para los visitantes del sitio web.

Backlinks

Como ya sabemos, los backlinks son de vital importancia para cualquier optimización que estemos planeando, así que incluso a la hora de crear enlaces entrantes, debemos tener cuidado, no excedernos y cuidar la calidad de dichos enlaces.

Velocidad de la página

Nunca podemos dejar de lado la velocidad de carga de nuestro sitio web. Para que la página sea mucho más atractiva para el rastreador, debemos tener siempre vigilados los procesos de almacenamiento en caché y comprimir los archivos de imagen.

Evitar los errores 404

Si una dirección URL ya no está disponible, los usuarios y el robot de Google llegan a un error 404, es decir, una página no existente. Lo mejor es derivar estas páginas rotas hacia nuevos contenidos adecuados para que el usuario no abandone el la página web. Si no hay una nueva subpágina correspondiente, se recomienda la creación de una página individual 404 de error personalizada que contenga más enlaces internos. Ni los visitantes del sitio ni el rastreador de Google pretenden acabar en un callejón sin salida, así que lo mejor es que puedan seguir haciendo clic a través de otros enlaces.Si quieres más información al respecto tenemos un artículo dedicado a solucionar errores 404.

Meta Robots Tag

A través de una etiqueta meta robots podemos darles instrucciones directas al bot de Google como, por ejemplo, si queremos que una página sea indexada o no. Si no hay ninguna etiqueta meta robots, entonces la página queda totalmente libre para la indexación y el rastreo. Lo más recomendable es indicarle a Google qué queremos que analice y así ahorraremos mucho más presupuesto de rastreo.

Conclusión

Con los métodos descritos anteriormente, el rastreador de Google puede rastrear nuestras páginas web y, al mismo tiempo, estaremos optimizando el Crawl Budget que tenemos asignado. El foco debe estar en las páginas web más importantes, las páginas sin importancia que no debe ser tenidas en cuenta en el índice de Google y además podemos excluirlas de forma específica. Este artículo no pretende ser demasiado exhaustivo ya que de este tema podríamos escribir uno o dos libros y de forma mucho más compleja. Sin embargo, queremos ofrecerte algunas ideas y conceptos clave, ya que el presupuesto de rastreo es un concepto cruncial para la optimización Onpage.

Author: Sascha Lienesch

Share this post