ChatPaper.aiChatPaper

MOLE: Extração e Validação de Metadados em Artigos Científicos Usando LLMs

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs

May 26, 2025
Autores: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI

Resumo

A extração de metadados é essencial para o catalogamento e preservação de conjuntos de dados, permitindo a descoberta eficaz de pesquisas e a reprodutibilidade, especialmente considerando o crescimento exponencial atual na pesquisa científica. Embora o Masader (Alyafeai et al., 2021) tenha estabelecido as bases para a extração de uma ampla gama de atributos de metadados de artigos acadêmicos de conjuntos de dados de PLN em árabe, ele depende fortemente de anotação manual. Neste artigo, apresentamos o MOLE, uma estrutura que aproveita os Modelos de Linguagem de Grande Escala (LLMs) para extrair automaticamente atributos de metadados de artigos científicos que cobrem conjuntos de dados de idiomas além do árabe. Nossa metodologia baseada em esquema processa documentos inteiros em vários formatos de entrada e incorpora mecanismos robustos de validação para garantir uma saída consistente. Além disso, introduzimos um novo benchmark para avaliar o progresso da pesquisa nessa tarefa. Por meio de uma análise sistemática do comprimento do contexto, aprendizado few-shot e integração de navegação na web, demonstramos que os LLMs modernos apresentam resultados promissores na automação dessa tarefa, destacando a necessidade de melhorias futuras para garantir um desempenho consistente e confiável. Disponibilizamos o código: https://github.com/IVUL-KAUST/MOLE e o conjunto de dados: https://huggingface.co/datasets/IVUL-KAUST/MOLE para a comunidade de pesquisa.
English
Metadata extraction is essential for cataloging and preserving datasets, enabling effective research discovery and reproducibility, especially given the current exponential growth in scientific research. While Masader (Alyafeai et al.,2021) laid the groundwork for extracting a wide range of metadata attributes from Arabic NLP datasets' scholarly articles, it relies heavily on manual annotation. In this paper, we present MOLE, a framework that leverages Large Language Models (LLMs) to automatically extract metadata attributes from scientific papers covering datasets of languages other than Arabic. Our schema-driven methodology processes entire documents across multiple input formats and incorporates robust validation mechanisms for consistent output. Additionally, we introduce a new benchmark to evaluate the research progress on this task. Through systematic analysis of context length, few-shot learning, and web browsing integration, we demonstrate that modern LLMs show promising results in automating this task, highlighting the need for further future work improvements to ensure consistent and reliable performance. We release the code: https://github.com/IVUL-KAUST/MOLE and dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.
PDF21December 16, 2025