OmniDocBench: Benchmarking der vielfältigen PDF-Dokumentenanalyse mit umfassenden Annotationen
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Autoren: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Zusammenfassung
Die Extraktion von Dokumenteninhalten ist in der Computer Vision von entscheidender Bedeutung, insbesondere um den hohen Qualitätsdatenbedarf großer Sprachmodelle (LLMs) und Technologien zur abgerufenen Generierung (RAG) zu erfüllen. Allerdings leiden aktuelle Methoden zur Dokumentenanalyse unter erheblichen Einschränkungen hinsichtlich Vielfalt und umfassender Bewertung. Um diesen Herausforderungen zu begegnen, stellen wir OmniDocBench vor, einen neuartigen Multi-Source-Benchmark, der darauf abzielt, die automatisierte Extraktion von Dokumenteninhalten voranzutreiben. OmniDocBench umfasst einen sorgfältig zusammengestellten und annotierten Datensatz zur Bewertung von hoher Qualität, der neun verschiedene Dokumententypen wie wissenschaftliche Arbeiten, Lehrbücher, Folien und andere umfasst. Unser Benchmark bietet ein flexibles und umfassendes Bewertungsframework mit 19 Layout-Kategorielabels und 14 Attributlabels, die mehrstufige Bewertungen über gesamte Datensätze, einzelne Module oder spezifische Datentypen ermöglichen. Unter Verwendung von OmniDocBench führen wir eine umfassende vergleichende Analyse bestehender modularer Pipelines und multimodaler End-to-End-Methoden durch, wobei ihre Einschränkungen im Umgang mit der Dokumentenvielfalt hervorgehoben und eine faire Bewertung gewährleistet wird. OmniDocBench etabliert einen robusten, vielfältigen und fairen Bewertungsstandard für das Feld der Dokumentenextraktion und bietet wichtige Erkenntnisse für zukünftige Fortschritte sowie die Förderung der Entwicklung von Dokumentenanalysetechnologien. Die Codes und der Datensatz sind unter https://github.com/opendatalab/OmniDocBench verfügbar.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.Summary
AI-Generated Summary