OmniDocBench : Évaluation de la diversité de l'analyse de documents PDF avec des annotations complètes
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Auteurs: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Résumé
L'extraction de contenu de documents est cruciale en vision par ordinateur, en particulier pour répondre aux besoins en données de haute qualité des grands modèles de langage (LLM) et des technologies de génération augmentée par récupération (RAG). Cependant, les méthodes actuelles d'analyse de documents souffrent de limitations significatives en termes de diversité et d'évaluation exhaustive. Pour relever ces défis, nous introduisons OmniDocBench, un nouveau banc d'essai multi-source conçu pour faire progresser l'extraction automatisée de contenu de documents. OmniDocBench comprend un ensemble de données d'évaluation de haute qualité méticuleusement sélectionné et annoté, comprenant neuf types de documents divers tels que des articles académiques, des manuels, des diapositives, entre autres. Notre banc d'essai offre un cadre d'évaluation flexible et complet avec 19 étiquettes de catégories de mise en page et 14 étiquettes d'attributs, permettant des évaluations à plusieurs niveaux sur l'ensemble des ensembles de données, des modules individuels ou des types de données spécifiques. En utilisant OmniDocBench, nous réalisons une analyse comparative exhaustive des pipelines modulaires existants et des méthodes multimodales de bout en bout, mettant en évidence leurs limitations dans la gestion de la diversité des documents et garantissant une évaluation équitable. OmniDocBench établit une norme d'évaluation robuste, diversifiée et équitable pour le domaine de l'extraction de contenu de documents, offrant des perspectives cruciales pour les avancées futures et favorisant le développement des technologies d'analyse de documents. Les codes et l'ensemble de données sont disponibles sur https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.Summary
AI-Generated Summary