OmniDocBench: Benchmarken van Diverse PDF-documentanalyse met Uitgebreide annotaties
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Auteurs: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Samenvatting
Het extraheren van documentinhoud is cruciaal in computer vision, vooral voor het voldoen aan de hoge kwaliteitsgegevensbehoeften van grote taalmodellen (LLM's) en technologieën voor opvraag-verrijkte generatie (RAG). Huidige methoden voor het analyseren van documenten kampen echter met aanzienlijke beperkingen op het gebied van diversiteit en uitgebreide evaluatie. Om deze uitdagingen aan te pakken, introduceren we OmniDocBench, een nieuw multi-source benchmark ontworpen om geautomatiseerde extractie van documentinhoud te bevorderen. OmniDocBench bevat een zorgvuldig samengestelde en geannoteerde dataset van hoge kwaliteit met negen diverse documenttypen, zoals academische papers, studieboeken, presentaties, en andere. Onze benchmark biedt een flexibel en uitgebreid evaluatiekader met 19 lay-outcategorieën en 14 attribuutlabels, waardoor multi-level beoordelingen mogelijk zijn over gehele datasets, individuele modules, of specifieke gegevenstypen. Met behulp van OmniDocBench voeren we een uitputtende vergelijkende analyse uit van bestaande modulaire pipelines en multimodale end-to-end methoden, waarbij hun beperkingen in het omgaan met documentdiversiteit worden benadrukt en een eerlijke evaluatie wordt gewaarborgd. OmniDocBench stelt een robuuste, diverse en eerlijke evaluatiestandaard vast voor het veld van documentinhoudsextractie, en biedt cruciale inzichten voor toekomstige ontwikkelingen en bevordert de ontwikkeling van technologieën voor het analyseren van documenten. De codes en dataset zijn beschikbaar op https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.