MOLE: Metadatenextraktion und -validierung in wissenschaftlichen Artikeln mittels LLMs
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
papers.authors: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
papers.abstract
Die Extraktion von Metadaten ist entscheidend für die Katalogisierung und Erhaltung von Datensätzen, ermöglicht eine effektive Forschungsentdeckung und Reproduzierbarkeit, insbesondere angesichts des derzeit exponentiellen Wachstums in der wissenschaftlichen Forschung. Während Masader (Alyafeai et al., 2021) die Grundlage für die Extraktion einer Vielzahl von Metadatenattributen aus wissenschaftlichen Artikeln arabischer NLP-Datensätze geschaffen hat, ist es stark auf manuelle Annotation angewiesen. In diesem Artikel stellen wir MOLE vor, ein Framework, das Large Language Models (LLMs) nutzt, um automatisch Metadatenattribute aus wissenschaftlichen Artikeln zu extrahieren, die Datensätze von Sprachen außer Arabisch abdecken. Unsere schema-gesteuerte Methodik verarbeitet gesamte Dokumente in mehreren Eingabeformaten und integriert robuste Validierungsmechanismen für konsistente Ausgaben. Zusätzlich führen wir einen neuen Benchmark ein, um den Forschungsfortschritt bei dieser Aufgabe zu bewerten. Durch systematische Analysen der Kontextlänge, Few-Shot-Learning und der Integration von Web-Browsing zeigen wir, dass moderne LLMs vielversprechende Ergebnisse bei der Automatisierung dieser Aufgabe liefern, was den Bedarf für weitere zukünftige Verbesserungen unterstreicht, um eine konsistente und zuverlässige Leistung zu gewährleisten. Wir veröffentlichen den Code: https://github.com/IVUL-KAUST/MOLE und den Datensatz: https://huggingface.co/datasets/IVUL-KAUST/MOLE für die Forschungsgemeinschaft.
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.