MOLE: Estrazione e Validazione dei Metadati nei Documenti Scientifici Utilizzando Modelli Linguistici di Grande Dimensione
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
Autori: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
Abstract
L'estrazione dei metadati è essenziale per catalogare e preservare i dataset, consentendo una scoperta efficace della ricerca e la riproducibilità, soprattutto considerando l'attuale crescita esponenziale della ricerca scientifica. Sebbene Masader (Alyafeai et al., 2021) abbia gettato le basi per estrarre un'ampia gamma di attributi di metadati dagli articoli accademici relativi ai dataset di NLP in arabo, si basa fortemente sull'annotazione manuale. In questo articolo, presentiamo MOLE, un framework che sfrutta i Large Language Model (LLM) per estrarre automaticamente gli attributi di metadati da articoli scientifici che coprono dataset di lingue diverse dall'arabo. La nostra metodologia basata su schema elabora interi documenti in più formati di input e incorpora meccanismi di validazione robusti per garantire un output coerente. Inoltre, introduciamo un nuovo benchmark per valutare i progressi della ricerca su questo compito. Attraverso un'analisi sistematica della lunghezza del contesto, dell'apprendimento few-shot e dell'integrazione della navigazione web, dimostriamo che i moderni LLM mostrano risultati promettenti nell'automatizzazione di questo compito, evidenziando la necessità di ulteriori miglioramenti futuri per garantire prestazioni coerenti e affidabili. Rilasciamo il codice: https://github.com/IVUL-KAUST/MOLE e il dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE per la comunità di ricerca.
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.