MOLE: 大規模言語モデルを用いた科学論文からのメタデータ抽出と検証
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs
May 26, 2025
著者: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI
要旨
メタデータ抽出は、データセットのカタログ化と保存に不可欠であり、特に現在の科学研究の指数関数的な成長を考えると、効果的な研究の発見と再現性を可能にします。Masader(Alyafeai et al., 2021)はアラビア語NLPデータセットの学術論文から幅広いメタデータ属性を抽出するための基盤を築きましたが、それは手動のアノテーションに大きく依存しています。本論文では、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するために、大規模言語モデル(LLMs)を活用するMOLEというフレームワークを紹介します。私たちのスキーマ駆動型の方法論は、複数の入力形式にわたる文書全体を処理し、一貫した出力のための堅牢な検証メカニズムを組み込んでいます。さらに、このタスクに関する研究の進捗を評価するための新しいベンチマークを導入します。コンテキスト長、少数ショット学習、ウェブブラウジング統合の体系的な分析を通じて、現代のLLMsがこのタスクの自動化において有望な結果を示すことを実証し、一貫した信頼性の高いパフォーマンスを確保するためのさらなる将来の作業の必要性を強調します。私たちは、研究コミュニティのためにコード(https://github.com/IVUL-KAUST/MOLE)とデータセット(https://huggingface.co/datasets/IVUL-KAUST/MOLE)を公開します。
English
Metadata extraction is essential for cataloging and preserving datasets,
enabling effective research discovery and reproducibility, especially given the
current exponential growth in scientific research. While Masader (Alyafeai et
al.,2021) laid the groundwork for extracting a wide range of metadata
attributes from Arabic NLP datasets' scholarly articles, it relies heavily on
manual annotation. In this paper, we present MOLE, a framework that leverages
Large Language Models (LLMs) to automatically extract metadata attributes from
scientific papers covering datasets of languages other than Arabic. Our
schema-driven methodology processes entire documents across multiple input
formats and incorporates robust validation mechanisms for consistent output.
Additionally, we introduce a new benchmark to evaluate the research progress on
this task. Through systematic analysis of context length, few-shot learning,
and web browsing integration, we demonstrate that modern LLMs show promising
results in automating this task, highlighting the need for further future work
improvements to ensure consistent and reliable performance. We release the
code: https://github.com/IVUL-KAUST/MOLE and dataset:
https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.Summary
AI-Generated Summary