{"id":209,"date":"2024-12-16T10:36:23","date_gmt":"2024-12-16T10:36:23","guid":{"rendered":"https:\/\/www.rubensantaella.es\/blog\/?p=209"},"modified":"2024-12-16T10:36:25","modified_gmt":"2024-12-16T10:36:25","slug":"el-como-y-por-que-del-rastreo-de-googlebot","status":"publish","type":"post","link":"https:\/\/www.rubensantaella.es\/blog\/el-como-y-por-que-del-rastreo-de-googlebot\/","title":{"rendered":"El c\u00f3mo y por qu\u00e9 del rastreo de Googlebot"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Probablemente hayas escuchado que Google necesita hacer un poco de trabajo antes de que una p\u00e1gina web pueda aparecer en los resultados de b\u00fasqueda (SERPs). Uno de estos pasos previos se denomina <em>crawling<\/em>\u00a0o rastreo. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El rastreo para Google lo realiza <strong>Googlebot<\/strong>, un programa que se ejecuta en los servidores de Google y que recupera una URL y maneja cosas como errores de red, redireccionamientos y otras peque\u00f1as complicaciones que puede encontrar mientras navega por la web. Pero hay algunos detalles que no se suelen mencionar. <\/p>\n\n\n\n<div style=\"height:24px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Retrocediendo un poco: <\/strong>\u00bfQu\u00e9 es el rastreo?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El rastreo es el proceso de descubrir nuevas p\u00e1ginas web y revisar las actualizadas, y descargarlas. En resumen, Googlebot obtiene una URL, realiza una solicitud HTTP al servidor que la aloja y luego maneja la respuesta de ese servidor, posiblemente siguiendo redireccionamientos, manejando errores y pasando el contenido de la p\u00e1gina al sistema de indexaci\u00f3n de Google.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pero las p\u00e1ginas web modernas no son solo HTML puro, entonces, \u00bfqu\u00e9 pasa con los otros recursos que componen una p\u00e1gina? \u00bfC\u00f3mo afecta el rastreo de estos recursos al \u00abpresupuesto de rastreo\u00bb? \u00bfSon estos recursos almacenables en cach\u00e9 por parte de Google? \u00bfY hay alguna diferencia entre las URLs que no han sido rastreadas antes y aquellas que ya est\u00e1n indexadas? En este post vamos a responder estas preguntas y m\u00e1s.<\/p>\n\n\n\n<div style=\"height:24px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h3 class=\"wp-block-heading\">Googlebot <strong>y el rastreo de recursos de la p\u00e1gina<\/strong><\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e1s all\u00e1 del HTML, los sitios web modernos utilizan una combinaci\u00f3n de diferentes tecnolog\u00edas como JavaScript y CSS para ofrecer experiencias vibrantes y funcionalidades \u00fatiles a los usuarios. Al acceder a tales p\u00e1ginas con un navegador, este primero descarga la URL principal que contiene los datos necesarios para comenzar a construir la p\u00e1gina para el usuario: el HTML de la p\u00e1gina. Estos datos iniciales pueden contener referencias a recursos como JavaScript y CSS, pero tambi\u00e9n im\u00e1genes y videos que el navegador volver\u00e1 a descargar para finalmente construir la p\u00e1gina final que se presenta al usuario.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Google hace exactamente lo mismo, aunque ligeramente diferente:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Googlebot descarga los datos iniciales desde la URL principal: <\/strong>el HTML de la p\u00e1gina.<\/li>\n\n\n\n<li><strong>Googlebot pasa los datos obtenidos al Servicio de Renderizado Web (WRS).<\/strong><\/li>\n\n\n\n<li>Usando Googlebot, <strong>WRS descarga los recursos referenciados en los datos originales.<\/strong><\/li>\n\n\n\n<li><strong>WRS construye la p\u00e1gina usando todos los recursos descargados como lo har\u00eda el navegador del usuario.<\/strong><\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">En comparaci\u00f3n con un navegador, el tiempo entre cada paso puede ser significativamente m\u00e1s largo debido a restricciones como la carga percibida del servidor que aloja los recursos necesarios para renderizar una p\u00e1gina. Y aqu\u00ed es donde entra en juego<strong> el presupuesto de rastreo.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Rastrear los recursos necesarios para renderizar una p\u00e1gina consumir\u00e1 parte del presupuesto de rastreo del nombre del host que aloja el recurso. Para mejorar esto, WRS intenta almacenar en cach\u00e9 cada recurso (JavaScript y CSS) referenciado en las p\u00e1ginas que renderiza. El tiempo de vida \u00fatil del cach\u00e9 WRS no se ve afectado por las directivas de cach\u00e9 HTTP; en cambio, WRS almacena todo hasta por 30 d\u00edas, lo cual ayuda a preservar el presupuesto de rastreo del sitio para otras tareas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Desde la perspectiva de los propietarios del sitio, gestionar c\u00f3mo y qu\u00e9 recursos se rastrean puede influir en el presupuesto de rastreo del sitio; recomendamos:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Usar la menor cantidad posible de recursos<\/strong> para ofrecer una gran experiencia a los usuarios; cuantos menos recursos se necesiten para renderizar una p\u00e1gina, menos presupuesto de rastreo se gastar\u00e1 durante la renderizaci\u00f3n.<\/li>\n\n\n\n<li><strong>Usar par\u00e1metros anti-cach\u00e9 con precauci\u00f3n:<\/strong> si las URLs de los recursos cambian, Google puede necesitar rastrear nuevamente los recursos, incluso si sus contenidos no han cambiado. Esto, por supuesto, consumir\u00e1 presupuesto de rastreo.<\/li>\n\n\n\n<li><strong>Alojar recursos en un nombre del host diferente al del sitio principal<\/strong>, por ejemplo empleando un CDN o simplemente alojando los recursos en un subdominio diferente. Esto trasladar\u00e1 las preocupaciones sobre el presupuesto de rastreo al host que est\u00e1 sirviendo los recursos.<\/li>\n<\/ul>\n\n\n\n<div style=\"height:24px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h4 class=\"wp-block-heading\">Actualizaci\u00f3n <strong>al 6 de diciembre de 2024<\/strong><\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Esto puede resultar en un rendimiento m\u00e1s lento debido a la sobrecarga de conexi\u00f3n a un nombre del host diferente, por lo que no recomendamos esta estrategia para recursos cr\u00edticos (como JavaScript o CSS) necesarios para renderizar una p\u00e1gina. Sin embargo, para recursos m\u00e1s grandes no cr\u00edticos como videos o descargas, vale la pena considerar este enfoque.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Todos estos puntos tambi\u00e9n se aplican a recursos multimedia. Si Googlebot (o m\u00e1s espec\u00edficamente, Googlebot-Image y Googlebot-Video respectivamente) los descarga, consumir\u00e1 el presupuesto de rastreo del sitio.Es tentador a\u00f1adir robots.txt a la lista tambi\u00e9n; sin embargo, desde una perspectiva de renderizado deshabilitar el rastreo de recursos generalmente causa problemas. Si WRS no puede obtener un recurso cr\u00edtico para renderizar, Google Search puede tener problemas para extraer contenido de la p\u00e1gina y permitir que esta clasifique en B\u00fasqueda.<\/p>\n\n\n\n<div style=\"height:24px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>\u00bfQu\u00e9 es el rastreo por parte de <\/strong>Googlebot<strong>?<\/strong><\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">La mejor fuente para analizar qu\u00e9 recursos est\u00e1 rastreando Google son los registros brutos de acceso del sitio que tienen una entrada para cada URL solicitada tanto por navegadores como por rastreadores. Para identificar los rastreadores de Google en el registro de acceso, publicamos nuestros rangos IP en nuestra documentaci\u00f3n para desarrolladores.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El segundo mejor recurso es, por supuesto, el informe <strong>Estad\u00edsticas sobre Rastreo en Search Console<\/strong>, que desglosa cada tipo de recurso por rastreador. El informe Estad\u00edsticas sobre Rastreo en Search Console muestra los diferentes tipos de recursos rastreados por Googlebot.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Finalmente, si realmente te interesa el tema del crawling y rendering y quieres charlar sobre ello con otros, este blog es el lugar indicado; deja tu comentario o contacta directamente conmigo y te responder\u00e9 a cualquier cuesti\u00f3n sin problema.<\/p>\n\n\n\n<div style=\"height:100px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Google Search realiza un proceso complejo antes de mostrar una p\u00e1gina en sus resultados, y uno de los pasos m\u00e1s importantes es el crawling o rastreo.<\/p>\n","protected":false},"author":1,"featured_media":210,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","_seopress_analysis_target_kw":"","_crdt_document":"","footnotes":""},"categories":[4],"tags":[17,80,79],"class_list":["post-209","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-seo","tag-google","tag-presupuesto-de-rastreo","tag-rastreo"],"_links":{"self":[{"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/posts\/209","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/comments?post=209"}],"version-history":[{"count":1,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/posts\/209\/revisions"}],"predecessor-version":[{"id":211,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/posts\/209\/revisions\/211"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/media\/210"}],"wp:attachment":[{"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/media?parent=209"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/categories?post=209"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.rubensantaella.es\/blog\/wp-json\/wp\/v2\/tags?post=209"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}