solucionar problemas indexación

Indexación. Analizar y solucionar problemas avanzados de indexación

En esta guía aprenderemos a solucionar los problemas de indexación complejos de nuestra web. Por lo que, si vas a leer esto, entendemos que tienes cierto nivel de SEO, o que al menos pretendes tenerlo y te estás formando para ello. No trataremos la indexación desde cero, ni páginas pequeñas. Nos vamos a centrar en webs con miles de urls para analizar su indexación.

Dicho esto, bienvenido, vamos a descubrir juntos como solucionar los problemas de indexación en una web compleja.

Por qué la indexación es un problema

Cuando tenemos webs muy grandes se hace más complicado que Google invierta tiempo en rastrear y categorizar nuestro contenido para mostrarlo correctamente en los resultados de búsqueda. Además, hay una serie de complicaciones que hacen que esta tarea se vuelva más complicada en webs grandes y es más probable que fallen cosas. Por ejemplo páginas que ya no deberían existir, contenido parecido, páginas que se generan por error…

Es decir, los problemas se multiplican, y si ya hemos dicho que Google trata de optimizar el tiempo que invierte en rastrear nuestra página, es muy importante que lo que tengamos en nuestra web sea correcto y esté al día. Con ello, conseguiremos que el paso que hace Google por nuestra página sea lo más efectivo posible y aumentar al máximo las posibilidades de indexación de las páginas interesantes de nuestro site.

Punto de partida

Para ver cómo solucionamos estos problemas vamos a tomar una web y vamos a ponernos manos a la obra. La web que tomamos lleva activa varios años, tiene casi tres mil artículos publicados y unas quinientas sesiones al día.

Lo primero que debemos hacer es entender la situación de indexación está siendo un problema con esta página. Así que vamos a ir a Google Search Console y ver la indexación de sus páginas:
– 1.713 páginas indexadas
– 11.322 páginas no indexadas

A primera vista, vemos dos cosas: primero, son muchas páginas para el tamaño que tiene esta web. Segundo, faltarían por indexar prácticamente la mitad de las páginas. Ahora toca meternos a analizar en profundidad paso a paso.

Revisamos cuáles son las páginas indexadas

Aunque no lo parezca, para establecer ese estatus inicial es importante ver cuáles son las páginas que Google esta leyendo e indexando y asegurarnos de que coincide con los artículos que tenemos publicados. Este informe de páginas indexadas lo podemos descargar del propio Google Search Console. Nos descargará mil páginas, es una pena que no podamos descargarnos todas, pero son suficientes para detectar patrones.

resumen de paginas indexadas

Al ver este archivo, detectamos que la gran mayoría de urls se corresponden con artículos publicados. Hay un pequeño porcentaje de urls con un parámetro generadas automáticamente, y otro pequeño porcentaje a urls de paginación de los archivos.

En general, es correcto, pero que duda cabe que si no se indexasen esas urls comentadas sería mejor. Más adelante, cunado tengamos la foto completa decidiremos que hacer en cada caso.

Revisamos cuales son las páginas no indexadas

Dentro de esta categoría encontramos varios motivos distintos por los que Google no está indexando las páginas, que para esta web son los siguientes:
– Página alternativa con etiqueta canónica adecuada = 6.007
– Página con redirección = 710
– No se ha encontrado (404) = 699
– Excluida por una etiqueta “noindex” = 15
– Se ha bloqueado debido a otro problema de tipo 4xx = 1
– Rastreada: actualmente sin indexar = 3.631
– Descubierta: actualmente sin indexar = 259

Ahora, pasamos a entender uno por uno estos motivos y profundizar en ellos.

Página alternativa con etiqueta canónica adecuada

Aquí hay que entender que esto puede no ser un problema, si estás páginas realmente muestran contenido muy parecido o duplicado y apuntan a la url correcta.

En este caso, vemos que son urls con parámetros que apuntan de manera adecuada a su url igual sin parámetro. Esto es correcto. Lo que cabría preguntarnos es si podemos reducir esa cantidad de urls, porque dado el tamaño del sitio, 6.000 páginas generadas de esta manera, aunque la indicación sea correcta, son muchas páginas.

Lo ideal sería reducir en la medida de lo posible la generación de estás páginas duplicadas, y asegurarnos de que las que van a dejar de existir, hagan una redirección del tipo 301 hacia la página correcta.

En este caso, no parece factible que podamos reducir este número de urls generadas automáticamente, pero al tener la indicación correcta, no se trata de un problema crítico.

Páginas con redirección

Entrando a analizar estas páginas vemos un poco de todo.

Por un lado, vemos urls que ya no están publicadas, que ahora redirigen a la home. En este caso, tenemos que ver que ha pasado con estas urls que ya no están publicadas, conociendo el histórico de la web entendemos que son artículos antiguos que decidieron despublicar ya que no eran visitados. Hasta ahí todo bien. Pero encontramos también que muchos de ellos están enlazados en páginas del blog, tendremos que quitar estos enlaces.

Lo siguiente, son urls generadas de manera automática con el formato “/feed/”. Si trabajas con WordPress puede que hayas visto antes esto, ya que WordPress las genera de manera automática. En teoría, esto está pensado para crear replicas de tus páginas que las redes sociales puedan leer de una manera más eficiente y mostrar tu contenido. Pero en la práctica esto no se usa. Crea más urls que carecen de valor y hacen que perdamos tiempo de rastreo. Lo mejor es quitarlas, y podemos hacerlo de una manera sencilla instalando un plugin como Yoast, en sus ajustes, en la parte de “Optimización del rastreo”, desactivando los formatos de contenido no deseados.

Y por último, encontramos algunas redirecciones de artículos que terminan sin “/” al articulo exactamente igual que termina con ella. Esto es algo totalmente normal al trabajar con WordPress y no es necesario que tomemos ninguna acción al respecto.

No se ha encontrado (404)

Lo primero que tenemos que asegurarnos es que entre estas páginas no hay urls de valor que hayamos perdido de alguna manera. En este ejemplo, no tenemos este problema, pero asegúrate de esto en tu caso.

Las urls que devuelven este error 404 no deben existir, pero aún así Google las está detectando, ¿por qué? Esto puede deberse a que estén enlazadas desde algún sitio, al igual que ocurría con las redirecciones. Tenemos que revisar que enlaces apuntan a estas urls.

Una vez solucionado esos enlaces, estas urls deberían ir desapareciendo de este informe. Y el robot de Google no debería acceder más a ellas.

Lograr la indexación de tu web

 

Excluida por una etiqueta “noindex”

Este error es de los más sencillos. Comprobamos que las urls que figuran aquí realmente no queremos que se indexen. si es así, estarán bien excluidas por esta regla noindex. Puede darse el caso que en este grupo figuren urls que si queremos que se indexen, en ese caso tendremos que quitarles la etiqueta “noindex” y hacer que sea “index”.

Se ha bloqueado debido a otro problema de tipo 4xx

Son errores que tendremos que ver muy al detalle, lo ideal es que no haya ninguna url en esta circunstancia. Podemos ver que tipo de error es para ver que solución podemos darle. En este caso, se trata de una url con error 400, que tendremos que revisar por qué se está generando, ya que no debería existir.

Rastreada: actualmente sin indexar

Aquí hay un gran potencial de ganancia. Son 3.631 urls que deberían estar indexadas y mostrándose en los resultados, pero no lo están haciendo. Primero tenemos que asegurarnos que su comportamiento es correcto, que están enlazadas y accesibles en nuestra web, y cómo de fácil es acceder a ellas. Para solucionar este problema, puede ser muy interesante hacerlas más accesibles dentro de nuestra web, esto se consigue enlazándolas desde páginas que ya tengan tráfico. Otra opción, puede ser buscar enlaces a estas páginas desde otros sitios web, pero esto lo recomendaría si tenemos una url muy importante que queramos posicionar dentro de este listado.

Nosotros lo que haremos será enlazarlas desde post que ya estén funcionando y sean relacionados, eso les dará una mayor fuerza semántica e importancia.

Cuando hagamos esto, podemos pedir a Google que las indexe desde dentro de la propia herramienta, esto no asegura que se indexen pero si que Google les echará un vistazo.

Descubierta sin indexar

Las urls que tenemos en este apartado son páginas que Google ha rastreado pero no ha considerado de utilidad para ser indexadas. Lo primero que tenemos que hacer es revisar la calidad del contenido de las mismas, y pensar en qué intención de búsqueda están solucionando y si lo solucionan correctamente. Una vez hayamos mejorado estás páginas y creamos que ya resuelven la intención de búsqueda, un buen segundo paso es enlazarlas desde otros puntos de la web que no sea necesario hacer tantos clics para acceder a ellas. Igualmente, podemos enlazarlas para darles más fuerza y enviarlas a Google para que las indexe.

Conclusiones

Con todos los cambios hechos, tendremos que esperar alrededor de un mes para ver todos los efectos y la dirección que toma la web. Lo que cabe de esperar es que se reduzcan las urls que no tienen ningún valor SEO y comience a indexar más urls que si tienen valor. Hacer este tipo de revisiones es muy importante si vamos a revitalizar nuestra estrategia SEO o como parte del mantenimiento cada cierto tiempo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *