MOLE: Extracción y Validación de Metadatos en Artículos Científicos Utilizando Modelos de Lenguaje de Gran Escala (LLMs)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
Autores: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
Resumen
La extracción de metadatos es esencial para catalogar y preservar conjuntos de datos, permitiendo una efectiva descubribilidad y reproducibilidad de la investigación, especialmente dado el crecimiento exponencial actual en la investigación científica. Si bien Masader (Alyafeai et al., 2021) sentó las bases para extraer una amplia gama de atributos de metadatos de artículos académicos de conjuntos de datos de PLN en árabe, depende en gran medida de la anotación manual. En este artículo, presentamos MOLE, un marco que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para extraer automáticamente atributos de metadatos de artículos científicos que cubren conjuntos de datos de idiomas distintos al árabe. Nuestra metodología basada en esquemas procesa documentos completos en múltiples formatos de entrada e incorpora mecanismos de validación robustos para garantizar una salida consistente. Además, introducimos un nuevo punto de referencia para evaluar el progreso de la investigación en esta tarea. A través de un análisis sistemático de la longitud del contexto, el aprendizaje con pocos ejemplos y la integración de navegación web, demostramos que los LLMs modernos muestran resultados prometedores en la automatización de esta tarea, destacando la necesidad de mejoras futuras para garantizar un rendimiento consistente y confiable. Publicamos el código: https://github.com/IVUL-KAUST/MOLE y el conjunto de datos: https://huggingface.co/datasets/IVUL-KAUST/MOLE para la comunidad investigadora.
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.