OmniDocBench:包括的な注釈付きPDF文書解析のベンチマーク化OmniDocBench: Benchmarking Diverse PDF Document Parsing with
Comprehensive Annotations
コンピュータビジョンにおいて、特に大規模言語モデル(LLMs)や検索拡張生成(RAG)技術の高品質データ要件を満たすために、文書内容の抽出は重要です。しかしながら、現在の文書解析方法は多様性と包括的な評価において著しい制約を抱えています。これらの課題に対処するために、自動文書内容抽出の進展を目指した新しい多元ソースベンチマークであるOmniDocBenchを紹介します。OmniDocBenchには、学術論文、教科書、スライドなど、9つの異なる文書タイプからなる厳選された高品質評価データセットが含まれています。当試験では、19のレイアウトカテゴリラベルと14の属性ラベルを備えた柔軟かつ包括的な評価フレームワークを提供し、全データセット、個々のモジュール、または特定のデータタイプにわたる多レベル評価を可能にします。OmniDocBenchを使用して、既存のモジュラーパイプラインとマルチモーダルエンドツーエンド手法の徹底的な比較分析を行い、文書の多様性を扱う際の制約や公平な評価を強調します。OmniDocBenchは、文書内容抽出分野における堅牢で多様かつ公正な評価基準を確立し、将来の進展に向けた重要な示唆を提供し、文書解析技術の発展を促進します。コードとデータセットはhttps://github.com/opendatalab/OmniDocBenchで入手可能です。