Screaming Frog SEO Spider: Guía de Auditoría Técnica Profesional
Screaming Frog es, de largo, la herramienta que más uso en mi flujo de trabajo de auditoría SEO técnica.
Esta guía recoge mi configuración real, el orden en que proceso los datos y las funcionalidades avanzadas
que marcan la diferencia entre una auditoría superficial y un diagnóstico que sirve de verdad.
Félix Molinafelixmolina.esLectura: 15 minÚltima actualización: mayo 2026
Qué es Screaming Frog y por qué es el estándar de la industria
Screaming Frog SEO Spider es un crawler de escritorio desarrollado por Screaming Frog Ltd (UK).
Simula el comportamiento de Googlebot recorriendo una web URL por URL, extrayendo datos de cada
recurso encontrado: páginas, imágenes, CSS, JavaScript, redirecciones, errores.
El resultado es una base de datos local con la que puedes identificar cualquier problema técnico
que afecte al rastreo, la indexación o el posicionamiento.
Es el estándar en auditorías profesionales por tres razones: velocidad (analiza miles de URLs
en minutos), profundidad (extrae más de 40 métricas por URL en modo básico, y cualquier dato
personalizado que necesites via XPath/CSS) y exportación (datos limpios a CSV, Excel o Google Sheets
con un clic). La versión gratuita está limitada a 500 URLs. La licencia anual de pago (~210 €)
es una de las mejores inversiones en el stack SEO técnico.
Contexto
Screaming Frog no reemplaza a Search Console ni a Ahrefs. Lo uso en combinación: GSC para datos
de rendimiento real, Ahrefs para análisis de autoridad y enlazado externo, y Screaming Frog para
el diagnóstico técnico interno. Cada herramienta tiene su dominio.
Configuración antes de lanzar el crawl
Un crawl mal configurado genera datos incorrectos o incompletos. Antes de pulsar Start,
siempre reviso estos parámetros:
User-Agent
Ruta: Configuration → User-Agent
Por defecto, Screaming Frog usa su propio user-agent. Para auditar cómo ve Google el sitio,
cambio a Googlebot. Algunos servidores devuelven respuestas distintas según el
agente — necesito ver lo mismo que ve el buscador. También uso el user-agent de móvil
(Googlebot Smartphone) en sitios con versiones separadas o problemas de
renderizado en mobile.
Rendering JavaScript
Ruta: Configuration → Spider → Rendering
Las opciones son None (HTML sin renderizar), DHTML (JS básico)
y JavaScript (Chromium completo). Para webs construidas con React, Next.js,
Vue u otros frameworks SPA activo el modo JavaScript: Screaming Frog lanza
un Chromium interno, renderiza cada página y extrae el DOM final, que es lo que Googlebot
realmente ve tras el renderizado. El coste es velocidad — un crawl con JS activo es
significativamente más lento.
Atención
Con rendering JS activado y sitios grandes (+10k URLs), limita el crawl por profundidad o
subfolder antes de lanzar. Un crawl sin límite en un site de 100k URLs con JS puede tardar días.
Límites y exclusiones de crawl
Ruta: Configuration → Spider → Crawl y
Configuration → Exclusions
Max URLs to Crawl: fijo siempre para auditorías iniciales. Empiezo con 10.000 en sites medianos.
Max Crawl Depth: útil para detectar páginas demasiado profundas en la arquitectura.
Exclusiones por regex: excluyo patrones que no quiero en el análisis —
/wp-admin/, /carrito/, /checkout/,
parámetros de sesión (\?sid=), facetas de ecommerce. Sin exclusiones bien
configuradas, el crawl puede multiplicarse por 10 rastreando variaciones de URL sin valor SEO.
Custom Extraction
Ruta: Configuration → Custom Extraction
Una de las funcionalidades más potentes y menos usadas. Permite extraer cualquier dato del HTML
via XPath, CSS Selector o Regex. En mi flujo
la uso habitualmente para: extraer el precio en ecommerce
(css: span.price), validar que el schema markup está presente
(xpath: //script[@type='application/ld+json']), o capturar
breadcrumbs para validar la arquitectura de información.
Integración con APIs externas
Ruta: Configuration → API Access
Screaming Frog se integra con Google Search Console, Google Analytics 4, Majestic, Moz y Ahrefs.
La integración con GSC es la más valiosa: añade datos de impresiones, clics y posición media
directamente a cada URL del crawl. Así puedo correlacionar problemas técnicos con caídas de
rendimiento real sin salir de la herramienta.
Pro tip
Guarda tus configuraciones habituales en
Configuration → Save Configuration. Tengo plantillas separadas para:
auditoría inicial, ecommerce, sites con JS heavy, y auditoría de contenido. Cargarlas al inicio
de cada proyecto ahorra 20 minutos de setup.
Flujo de análisis post-crawl: orden de prioridad
Cuando el crawl termina, el volumen de datos puede abrumar. Mi flujo sigue siempre el mismo
orden, de lo global a lo específico:
Visión global — OverviewReports → Crawl Overview genera un resumen de todas las métricas
principales. Número de URLs internas, distribución de códigos de respuesta, páginas con
title o meta description duplicados, imágenes sin alt text. Es el primer filtro para
priorizar el resto del análisis.
Códigos de respuesta
Pestaña Response Codes. Primero los 4xx y 5xx: cada 404
o 500 es un problema que bloquea el rastreo o la indexación. Luego los 3xx: cadenas
de redirección innecesarias (Reports → Redirect Chains)
que consumen crawl budget y diluyen señales. Los 301 directos son correctos; las cadenas
de 3 o más saltos necesitan corrección.
Titles y meta descriptions
Pestaña Page Titles y Meta Description.
Busco: ausentes, duplicados, demasiado cortos (<30 chars en title), demasiado largos
(>60 chars en title, >155 en description). En sites grandes el volumen de duplicados
suele revelar problemas de arquitectura o parametrización que van más allá del copy.
H1 y estructura de encabezados
Pestaña H1. Páginas sin H1, con H1 duplicado, o con más de un H1.
Cruzo con los titles para detectar inconsistencias entre la keyword objetivo del title y
la del H1 — suelen revelar páginas que apuntan a keywords distintas sin querer.
Enlazado interno
Pestaña Links + filtro Inlinks/Outlinks. Detecto: páginas con
muy pocos inlinks internos (contenido huérfano), páginas con demasiados outlinks
(dilución de PageRank interno), anchor texts genéricos ("haz clic aquí") que desperdician
señales semánticas. La exportación a Excel con pivot table da el cuadro completo rápido.
Imágenes
Pestaña Images. Imágenes sin alt text, alt texts duplicados,
imágenes demasiado pesadas (filtro por Content Size > 200KB), imágenes rotas.
En sites editoriales o ecommerce esta pestaña siempre da trabajo.
Canonical y directivas
Pestañas Canonical y Directives.
Canonicals que apuntan a páginas distintas de sí mismas (canonicalización cruzada
intencionada o errónea), páginas indexables con canonical a no-indexable, directivas
noindex en páginas que deberían estar en el índice.
Structured Data
Pestaña Structured Data (requiere rendering activo o
Configuration → Custom Extraction con XPath).
Valido que el schema markup esté presente en las páginas que lo necesitan y que los tipos
sean correctos. Los errores de schema no penalizan directamente, pero invalidan los
rich results.
Tabla de códigos de respuesta: qué hacer con cada uno
Código
Significado
Impacto SEO
Acción
200
OK — recurso accesible
Neutro / positivo
Verificar que las 200 son páginas que deben indexarse
301
Redirección permanente
Transfiere señales (≥99%)
Verificar destino correcto, evitar cadenas
302
Redirección temporal
No transfiere señales de forma fiable
Cambiar a 301 si la redirección es permanente
307 / 308
Redirección temporal/permanente (HTTP/1.1)
308 equivale a 301
Igual que 301/302 según el caso
404
No encontrado
Pierde tráfico y señales si tiene inlinks
Redirigir a URL relevante o eliminar inlinks
410
Eliminado permanentemente
Señal explícita de eliminación a Google
Usar cuando el contenido no va a volver
403
Prohibido
Bloquea el rastreo
Revisar permisos; si es intencional, confirmar que no hay inlinks
500
Error interno del servidor
Crítico — Google puede desindexar
Prioridad máxima; escalar a desarrollo inmediatamente
503
Servicio no disponible
Temporal si se usa bien; grave si persiste
Confirmar que se usa solo en mantenimiento planeado con Retry-After
Priorización de hallazgos: qué atacar primero
No todos los problemas tienen el mismo impacto. Mi criterio de priorización:
P1 Errores 5xx, URLs indexables con noindex, canonicals rotos, bloqueos en robots.txt a recursos críticos
P1 Errores 404 con inlinks internos o externos relevantes
P2 Cadenas de redirección, titles/H1 duplicados, contenido duplicado interno
P2 Imágenes sin alt text, páginas sin meta description, hreflang incorrecto
P3 Optimización de titles/descriptions, schema markup incompleto, anchor texts genéricos
P3 Imágenes pesadas, profundidad de rastreo elevada, URLs con parámetros no canonicanizadas
Mi criterio
En una auditoría para un cliente, el informe final no lista todos los problemas: los clasifica
por impacto estimado y los agrupa por tipo de tarea. Un desarrollador no puede trabajar con
una lista de 200 ítems mezclados. Agrupar los 404 juntos, los problemas de title juntos, las
imágenes juntas — eso sí es ejecutable.
Funcionalidades avanzadas que uso en proyectos reales
🔍
Custom Search
Ruta: Configuration → Custom Search
Busca texto o patrones regex en el HTML de cada URL. Úsalo para detectar: texto de
desarrollo que quedó en producción, etiquetas de analítica duplicadas, fragmentos de
código deprecado, o cualquier string que no debería estar en páginas públicas.
📊
Crawl Comparison
Ruta: File → Compare Crawls
Compara dos crawls del mismo sitio en distintas fechas. Detecta URLs que han desaparecido,
titles que han cambiado, páginas que han pasado de 200 a 404, nuevas redirecciones.
Esencial para seguimiento post-migración o después de un update técnico importante.
📋
Log File Analysis
Ruta: Mode → Log File Analysis
Importa logs del servidor para ver exactamente qué URLs rastreó Googlebot, con qué
frecuencia y qué respuesta recibió. Cruza el log con el crawl de Screaming Frog para
detectar: URLs que Google rastrea pero no deberían estar indexadas, páginas importantes
que Google nunca visita, crawl budget desperdiciado en recursos sin valor.
📄
Crawl en modo List
Ruta: Mode → List
En lugar de rastrear desde la home, procesa una lista de URLs específicas.
Lo uso para: auditar solo las URLs exportadas desde GSC con caídas de rendimiento,
o validar un conjunto de páginas tras una migración sin necesidad de re-crawlear todo el site.
🗺️
Sitemap Crawl
Ruta: Mode → Sitemap
Rastrear únicamente las URLs del sitemap XML. Revela rápidamente si el sitemap contiene
URLs que devuelven 404, están redirigidas, tienen noindex o están bloqueadas en robots.txt.
Inconsistencias en el sitemap son sorprendentemente comunes incluso en sites bien mantenidos.
🔗
Hreflang Validation
Ruta: Reports → Hreflang
Para sites internacionales, Screaming Frog valida la implementación completa de hreflang:
etiquetas recíprocas, etiquetas que apuntan a URLs no rastreables, valores de idioma/región
incorrectos, y páginas que deberían tener hreflang pero no lo tienen.
Reflexión sobre metodología y criterio profesional
Screaming Frog puede generar cientos de hallazgos en un site mediano. El valor del trabajo
de un consultor SEO técnico no está en listar todos esos hallazgos: está en saber cuáles
importan, en qué orden atacarlos y por qué.
He visto informes de auditoría de 80 páginas que no servían de nada porque mezclaban
problemas críticos con mejoras menores sin distinguirlos, y sin explicar el impacto estimado
de cada corrección. He visto también auditorías de 10 páginas que cambiaron completamente
la visibilidad de un site porque se centraban en los 5 problemas que de verdad pesaban.
La herramienta es el medio. El criterio es el trabajo.
Screaming Frog me da los datos. Yo decido qué significan, qué priorizo y cómo lo comunico
a quien tiene que implementar los cambios. Esa capa de interpretación y priorización es
lo que diferencia un informe técnico útil de un volcado de datos.
Recurso
La documentación oficial de Screaming Frog en
screamingfrog.co.uk
está muy bien mantenida y es la referencia definitiva para cada parámetro de configuración.
Para casos avanzados de Custom Extraction con XPath, el W3Schools XPath tutorial es el recurso
que recomiendo cuando estoy aprendiendo un nuevo patrón.