OmniDocBench: Valutazione delle Diverse Analisi di Documenti PDF con Annotazioni Complete
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Autori: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Abstract
L'estrazione del contenuto dei documenti è cruciale nell'ambito della computer vision, specialmente per soddisfare le esigenze di dati di alta qualità dei grandi modelli linguistici (LLM) e delle tecnologie di generazione potenziate da recupero (RAG). Tuttavia, i metodi attuali di analisi dei documenti presentano significative limitazioni in termini di diversità e valutazione esaustiva. Per affrontare tali sfide, presentiamo OmniDocBench, un nuovo benchmark multi-sorgente progettato per far progredire l'estrazione automatizzata del contenuto dei documenti. OmniDocBench include un dataset di valutazione di alta qualità, meticolosamente curato e annotato, che comprende nove tipi di documenti diversi, come articoli accademici, libri di testo, presentazioni, tra gli altri. Il nostro benchmark fornisce un quadro di valutazione flessibile e completo con 19 etichette di categoria di layout e 14 etichette di attributi, consentendo valutazioni a più livelli su interi dataset, moduli individuali o tipi di dati specifici. Utilizzando OmniDocBench, conduciamo un'analisi comparativa esaustiva dei pipeline modulari esistenti e dei metodi end-to-end multimodali, evidenziandone le limitazioni nel gestire la diversità dei documenti e garantendo una valutazione equa. OmniDocBench stabilisce uno standard di valutazione robusto, diversificato e equo per il campo dell'estrazione del contenuto dei documenti, offrendo importanti spunti per futuri progressi e promuovendo lo sviluppo delle tecnologie di analisi dei documenti. I codici e il dataset sono disponibili su https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.