Análisis de metadatos de noticias para la extracción de información del código fuente. El software METADATOSHTML

La revista sueca Information Research publica, en su primer número de 2017, el artículo siguiente:

Baños-Moreno, M.J., Felipe, E.R., Pastor-Sánchez, J.A., Lima, G. & Martínez-Bejar, R. (2017). Análisis de metadatos de noticias para la extracción de información del código fuente. El software METADADOSHTMLInformation Research, 22(1), paper 740. Retrieved from http://InformationR.net/ir/22-1/paper740.html

RESUMEN:

Los objetivos de este trabajo son determinar qué esquemas se utilizan para título, resumen, palabras clave, autoría y periódico en prensa; conocer qué pautas siguen los periódicos en la implementación de dichos esquemas; y averiguar cómo esto afecta a la extracción de información.
Metodología. Para ello, se define una muestra de diarios y se analiza su código fuente, identificando esquemas utilizados y patrones de uso. Esto permite extraer valores de dato utilizando la aplicación MetadadosHTML.
Resultados. Se han detectado esquemas estándar, ad hoc y propios de los periódicos. Se han hallado diversas prácticas, como valores agrupados en una misma línea de código o por separado; ruido en un valor y errores al referir los nombres de los atributos de esquemas estándar. Estos problemas afectan a la extracción de datos basada en esquemas de metadatos y metadatos en MetadadosHTML.
Conclusiones. Es necesario avanzar en el uso de esquemas estándar, como Dublin Core o schema.org, favoreciendo la implantación de estos (u otros) en los códigos fuente de noticias. También resulta imprescindible la adopción de buenas prácticas al explicitar datos y valores de datos. Sólo así es posible evolucionar en la interoperabilidad entre sistemas y en la recuperación y reutilización de información.

Comentarios

Entradas populares de este blog

Creación de ontologías con Protégé: conceptos básicos

El IBSN, el código identificador de blogs

Handy library: una opción de app sencilla y rápida para catalogar libros en bibliotecas personales