ChatPaper.aiChatPaper

MOLE: 大規模言語モデルを用いた科学論文からのメタデータ抽出と検証

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs

May 26, 2025
著者: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem
cs.AI

要旨

メタデータ抽出は、データセットのカタログ化と保存に不可欠であり、特に現在の科学研究の指数関数的な成長を考えると、効果的な研究の発見と再現性を可能にします。Masader(Alyafeai et al., 2021)はアラビア語NLPデータセットの学術論文から幅広いメタデータ属性を抽出するための基盤を築きましたが、それは手動のアノテーションに大きく依存しています。本論文では、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するために、大規模言語モデル(LLMs)を活用するMOLEというフレームワークを紹介します。私たちのスキーマ駆動型の方法論は、複数の入力形式にわたる文書全体を処理し、一貫した出力のための堅牢な検証メカニズムを組み込んでいます。さらに、このタスクに関する研究の進捗を評価するための新しいベンチマークを導入します。コンテキスト長、少数ショット学習、ウェブブラウジング統合の体系的な分析を通じて、現代のLLMsがこのタスクの自動化において有望な結果を示すことを実証し、一貫した信頼性の高いパフォーマンスを確保するためのさらなる将来の作業の必要性を強調します。私たちは、研究コミュニティのためにコード(https://github.com/IVUL-KAUST/MOLE)とデータセット(https://huggingface.co/datasets/IVUL-KAUST/MOLE)を公開します。
English
Metadata extraction is essential for cataloging and preserving datasets, enabling effective research discovery and reproducibility, especially given the current exponential growth in scientific research. While Masader (Alyafeai et al.,2021) laid the groundwork for extracting a wide range of metadata attributes from Arabic NLP datasets' scholarly articles, it relies heavily on manual annotation. In this paper, we present MOLE, a framework that leverages Large Language Models (LLMs) to automatically extract metadata attributes from scientific papers covering datasets of languages other than Arabic. Our schema-driven methodology processes entire documents across multiple input formats and incorporates robust validation mechanisms for consistent output. Additionally, we introduce a new benchmark to evaluate the research progress on this task. Through systematic analysis of context length, few-shot learning, and web browsing integration, we demonstrate that modern LLMs show promising results in automating this task, highlighting the need for further future work improvements to ensure consistent and reliable performance. We release the code: https://github.com/IVUL-KAUST/MOLE and dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE for the research community.

Summary

AI-Generated Summary

PDF11May 27, 2025