MOLE : Extraction et Validation des Métadonnées dans les Articles Scientifiques à l’Aide de Modèles de Langage (LLMs)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
Auteurs: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
Résumé
L'extraction de métadonnées est essentielle pour le catalogage et la préservation des ensembles de données, permettant une découverte et une reproductibilité efficaces de la recherche, en particulier compte tenu de la croissance exponentielle actuelle de la recherche scientifique. Bien que Masader (Alyafeai et al., 2021) ait posé les bases pour l'extraction d'un large éventail d'attributs de métadonnées à partir d'articles scientifiques sur les ensembles de données en traitement automatique du langage naturel (TALN) en arabe, il repose fortement sur l'annotation manuelle. Dans cet article, nous présentons MOLE, un cadre qui exploite les modèles de langage de grande taille (LLMs) pour extraire automatiquement les attributs de métadonnées à partir d'articles scientifiques couvrant des ensembles de données dans des langues autres que l'arabe. Notre méthodologie basée sur un schéma traite des documents entiers dans plusieurs formats d'entrée et intègre des mécanismes de validation robustes pour une sortie cohérente. De plus, nous introduisons un nouveau benchmark pour évaluer les progrès de la recherche sur cette tâche. À travers une analyse systématique de la longueur du contexte, de l'apprentissage par quelques exemples (few-shot learning) et de l'intégration de la navigation web, nous démontrons que les LLMs modernes montrent des résultats prometteurs dans l'automatisation de cette tâche, soulignant la nécessité d'améliorations futures pour garantir des performances cohérentes et fiables. Nous mettons à disposition le code : https://github.com/IVUL-KAUST/MOLE et l'ensemble de données : https://huggingface.co/datasets/IVUL-KAUST/MOLE pour la communauté de recherche.
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.Summary
AI-Generated Summary