ChatPaper.aiChatPaper

OmniDocBench: Evaluación de Análisis de Documentos PDF Diversos con Anotaciones Exhaustivas

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

December 10, 2024
Autores: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI

Resumen

La extracción de contenido de documentos es crucial en visión por computadora, especialmente para satisfacer las necesidades de datos de alta calidad de grandes modelos de lenguaje (LLMs) y tecnologías de generación con recuperación aumentada (RAG). Sin embargo, los métodos actuales de análisis de documentos sufren de limitaciones significativas en términos de diversidad y evaluación exhaustiva. Para abordar estos desafíos, presentamos OmniDocBench, un nuevo banco de pruebas multiorigen diseñado para avanzar en la extracción automatizada de contenido de documentos. OmniDocBench incluye un conjunto de datos de evaluación de alta calidad meticulosamente seleccionado y anotado que comprende nueve tipos de documentos diversos, como artículos académicos, libros de texto, diapositivas, entre otros. Nuestro banco de pruebas proporciona un marco de evaluación flexible y completo con 19 etiquetas de categorías de diseño y 14 etiquetas de atributos, lo que permite evaluaciones multinivel en conjuntos de datos completos, módulos individuales o tipos de datos específicos. Utilizando OmniDocBench, realizamos un análisis comparativo exhaustivo de los pipelines modulares existentes y los métodos multimodales de extremo a extremo, resaltando sus limitaciones en el manejo de la diversidad de documentos y asegurando una evaluación justa. OmniDocBench establece un estándar de evaluación robusto, diverso y justo para el campo de extracción de contenido de documentos, ofreciendo ideas cruciales para futuros avances y fomentando el desarrollo de tecnologías de análisis de documentos. Los códigos y el conjunto de datos están disponibles en https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for meeting the high-quality data needs of large language models (LLMs) and retrieval-augmented generation (RAG) technologies. However, current document parsing methods suffer from significant limitations in terms of diversity and comprehensive evaluation. To address these challenges, we introduce OmniDocBench, a novel multi-source benchmark designed to advance automated document content extraction. OmniDocBench includes a meticulously curated and annotated high-quality evaluation dataset comprising nine diverse document types, such as academic papers, textbooks, slides, among others. Our benchmark provides a flexible and comprehensive evaluation framework with 19 layout category labels and 14 attribute labels, enabling multi-level assessments across entire datasets, individual modules, or specific data types. Using OmniDocBench, we perform an exhaustive comparative analysis of existing modular pipelines and multimodal end-to-end methods, highlighting their limitations in handling document diversity and ensuring fair evaluation. OmniDocBench establishes a robust, diverse, and fair evaluation standard for the document content extraction field, offering crucial insights for future advancements and fostering the development of document parsing technologies. The codes and dataset is available in https://github.com/opendatalab/OmniDocBench.

Summary

AI-Generated Summary

PDF111December 11, 2024