MOLE: Metadata-extractie en -validatie in wetenschappelijke artikelen met behulp van LLM's

Samenvatting

Metadata-extractie is essentieel voor het catalogiseren en behouden van datasets, waardoor effectieve onderzoeksontdekking en reproduceerbaarheid mogelijk worden, vooral gezien de huidige exponentiële groei in wetenschappelijk onderzoek. Hoewel Masader (Alyafeai et al., 2021) de basis legde voor het extraheren van een breed scala aan metadata-attributen uit wetenschappelijke artikelen over Arabische NLP-datasets, is het sterk afhankelijk van handmatige annotatie. In dit artikel presenteren we MOLE, een raamwerk dat gebruikmaakt van Large Language Models (LLMs) om automatisch metadata-attributen te extraheren uit wetenschappelijke artikelen die datasets van talen anders dan Arabisch behandelen. Onze schema-gestuurde methodologie verwerkt volledige documenten in meerdere invoerformaten en bevat robuuste validatiemechanismen voor consistente output. Daarnaast introduceren we een nieuwe benchmark om de onderzoeksvooruitgang op deze taak te evalueren. Door systematische analyse van contextlengte, few-shot learning en integratie van webnavigatie, tonen we aan dat moderne LLMs veelbelovende resultaten laten zien bij het automatiseren van deze taak, wat de noodzaak benadrukt van verdere toekomstige verbeteringen om consistente en betrouwbare prestaties te garanderen. We maken de code beschikbaar: https://github.com/IVUL-KAUST/MOLE en de dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE voor de onderzoeksgemeenschap.

English

Metadata extraction is essential for cataloging and preserving datasets, enabling effective research discovery and reproducibility, especially given the current exponential growth in scientific research. While Masader (Alyafeai et al.,2021) laid the groundwork for extracting a wide range of metadata attributes from Arabic NLP datasets' scholarly articles, it relies heavily on manual annotation. In this paper, we present MOLE, a framework that leverages Large Language Models (LLMs) to automatically extract metadata attributes from scientific papers covering datasets of languages other than Arabic. Our schema-driven methodology processes entire documents across multiple input formats and incorporates robust validation mechanisms for consistent output. Additionally, we introduce a new benchmark to evaluate the research progress on this task. Through systematic analysis of context length, few-shot learning, and web browsing integration, we demonstrate that modern LLMs show promising results in automating this task, highlighting the need for further future work improvements to ensure consistent and reliable performance. We release the code: https://github.com/IVUL-KAUST/MOLE and dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.

MOLE: Metadata-extractie en -validatie in wetenschappelijke artikelen met behulp van LLM's

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs

Samenvatting

Support