MOLE: Извлечение и проверка метаданных в научных статьях с использованием языковых моделей (LLM)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
Авторы: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
Аннотация
Извлечение метаданных является ключевым для каталогизации и сохранения наборов данных, обеспечивая эффективное обнаружение исследований и их воспроизводимость, особенно учитывая текущий экспоненциальный рост в научных исследованиях. Хотя Masader (Alyafeai et al., 2021) заложил основу для извлечения широкого спектра атрибутов метаданных из научных статей, посвященных арабским NLP-наборам данных, он в значительной степени опирается на ручную аннотацию. В данной статье мы представляем MOLE — фреймворк, который использует большие языковые модели (LLM) для автоматического извлечения атрибутов метаданных из научных статей, охватывающих наборы данных на языках, отличных от арабского. Наша схематическая методология обрабатывает целые документы в различных форматах входных данных и включает надежные механизмы валидации для обеспечения согласованного вывода. Кроме того, мы представляем новый эталон для оценки прогресса исследований в этой области. Благодаря систематическому анализу длины контекста, обучения с малым количеством примеров и интеграции веб-поиска, мы демонстрируем, что современные LLM показывают многообещающие результаты в автоматизации этой задачи, подчеркивая необходимость дальнейших улучшений для обеспечения стабильной и надежной работы. Мы публикуем код: https://github.com/IVUL-KAUST/MOLE и набор данных: https://huggingface.co/datasets/IVUL-KAUST/MOLE для исследовательского сообщества.
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.