OmniDocBench:包括的な注釈付きPDF文書解析のベンチマーク化
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
著者: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
要旨
コンピュータビジョンにおいて、特に大規模言語モデル(LLMs)や検索拡張生成(RAG)技術の高品質データ要件を満たすために、文書内容の抽出は重要です。しかしながら、現在の文書解析方法は多様性と包括的な評価において著しい制約を抱えています。これらの課題に対処するために、自動文書内容抽出の進展を目指した新しい多元ソースベンチマークであるOmniDocBenchを紹介します。OmniDocBenchには、学術論文、教科書、スライドなど、9つの異なる文書タイプからなる厳選された高品質評価データセットが含まれています。当試験では、19のレイアウトカテゴリラベルと14の属性ラベルを備えた柔軟かつ包括的な評価フレームワークを提供し、全データセット、個々のモジュール、または特定のデータタイプにわたる多レベル評価を可能にします。OmniDocBenchを使用して、既存のモジュラーパイプラインとマルチモーダルエンドツーエンド手法の徹底的な比較分析を行い、文書の多様性を扱う際の制約や公平な評価を強調します。OmniDocBenchは、文書内容抽出分野における堅牢で多様かつ公正な評価基準を確立し、将来の進展に向けた重要な示唆を提供し、文書解析技術の発展を促進します。コードとデータセットはhttps://github.com/opendatalab/OmniDocBenchで入手可能です。
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.Summary
AI-Generated Summary