ChatPaper.aiChatPaper

OmniDocBench: Valutazione delle Diverse Analisi di Documenti PDF con Annotazioni Complete

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

December 10, 2024
Autori: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI

Abstract

L'estrazione del contenuto dei documenti è cruciale nell'ambito della computer vision, specialmente per soddisfare le esigenze di dati di alta qualità dei grandi modelli linguistici (LLM) e delle tecnologie di generazione potenziate da recupero (RAG). Tuttavia, i metodi attuali di analisi dei documenti presentano significative limitazioni in termini di diversità e valutazione esaustiva. Per affrontare tali sfide, presentiamo OmniDocBench, un nuovo benchmark multi-sorgente progettato per far progredire l'estrazione automatizzata del contenuto dei documenti. OmniDocBench include un dataset di valutazione di alta qualità, meticolosamente curato e annotato, che comprende nove tipi di documenti diversi, come articoli accademici, libri di testo, presentazioni, tra gli altri. Il nostro benchmark fornisce un quadro di valutazione flessibile e completo con 19 etichette di categoria di layout e 14 etichette di attributi, consentendo valutazioni a più livelli su interi dataset, moduli individuali o tipi di dati specifici. Utilizzando OmniDocBench, conduciamo un'analisi comparativa esaustiva dei pipeline modulari esistenti e dei metodi end-to-end multimodali, evidenziandone le limitazioni nel gestire la diversità dei documenti e garantendo una valutazione equa. OmniDocBench stabilisce uno standard di valutazione robusto, diversificato e equo per il campo dell'estrazione del contenuto dei documenti, offrendo importanti spunti per futuri progressi e promuovendo lo sviluppo delle tecnologie di analisi dei documenti. I codici e il dataset sono disponibili su https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for meeting the high-quality data needs of large language models (LLMs) and retrieval-augmented generation (RAG) technologies. However, current document parsing methods suffer from significant limitations in terms of diversity and comprehensive evaluation. To address these challenges, we introduce OmniDocBench, a novel multi-source benchmark designed to advance automated document content extraction. OmniDocBench includes a meticulously curated and annotated high-quality evaluation dataset comprising nine diverse document types, such as academic papers, textbooks, slides, among others. Our benchmark provides a flexible and comprehensive evaluation framework with 19 layout category labels and 14 attribute labels, enabling multi-level assessments across entire datasets, individual modules, or specific data types. Using OmniDocBench, we perform an exhaustive comparative analysis of existing modular pipelines and multimodal end-to-end methods, highlighting their limitations in handling document diversity and ensuring fair evaluation. OmniDocBench establishes a robust, diverse, and fair evaluation standard for the document content extraction field, offering crucial insights for future advancements and fostering the development of document parsing technologies. The codes and dataset is available in https://github.com/opendatalab/OmniDocBench.
PDF111December 11, 2024