¿Qué es XPath y cómo lo utilizamos?

XPath significa XML Path Language, es un lenguaje de consulta utilizado para seleccionar nodos de un documento XML o HTML. En el contexto del SEO y el marketing digital, XPath se convierte en una herramienta poderosa para extraer datos específicos de páginas web, lo que permite a los profesionales analizar y optimizar mejor sus estrategias de contenido y estructura web.

¿Dónde utilizamos Xpath para extraer contenidos?

En Amarillo Limón, cuando queremos extraer datos interesantes de algún proyecto o cliente lo hacemos con Screaming Frog. Screaming Frog es una herramienta de rastreo muy popular que analiza sitios web para identificar problemas de SEO, como enlaces rotos, redirecciones, meta etiquetas faltantes, entre otros. Al integrar XPath podemos personalizar aún más el análisis, para incluir la extracción de información específica que no se recopila de manera predeterminada.

¿Cómo utilizar Xpath en Screaming Frog?

Para utilizar XPath con Screaming Frog y extraer datos personalizados, sigue estos pasos:

  1. Abre Screaming Frog SEO Spider
  2. Configura la Extracción Personalizada: Ve a Configuración en la barra de menú. Selecciona Personalizado y luego Extracción.
  3. En la ventana de Extracción Personalizada, le das a añadir y selecciona “XPath” en el menú desplegable de ‘Tipo’.
  4. En el campo “Expresión”, ingresa la expresión XPath que deseas utilizar para extraer datos. Más abajo te daremos algunos de los ejemplos que más solemos utilizar.

extraccion personalizada -screamingfrog

Ya solo quedaría poner la url de la web que quieres rastrear y darle a Iniciar. Una vez completado el rastreo puedes descargar todos los datos o en la pestaña Personalizado descargar solo los datos que has extraído con las instrucciones XPath.

Ejemplos de Expresiones de Xpath

Aquí os dejamos algunos ejemplos de las expresiones xpath que más utilizamos en Amarillo Limón:

  1. Extraer todos los encabezados H3: //h3 para identificar los encabezados principales de una página. (esto lo puedes cambiar por h1, h2, h4.. para extraer el resto)
  2. Seleccionar imágenes: //img para extraer todas las imágenes de una página, útil para optimizar elementos visuales.
  3. Contenido específico por clase o ID: //*[@class=’example’] o //*[@id=’unique’] para seleccionar elementos específicos basados en su clase o ID, respectivamente.
  4. Encontrar elementos por atributo: //*[@attribute=’value’]
  5. Obtener todos los enlaces: //a para listar todos los enlaces presentes en un documento.
  6. Extraer todos los enlaces internos: //a[contains(@href, ‘tu-dominio.com’)] Selecciona todos los enlaces que apuntan a p