OmniDocBench: Avaliação de Análise de Documentos PDF Diversos com Anotações Abrangentes
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Autores: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Resumo
A extração de conteúdo de documentos é crucial em visão computacional, especialmente para atender às necessidades de dados de alta qualidade de grandes modelos de linguagem (LLMs) e tecnologias de geração com recuperação (RAG). No entanto, os métodos atuais de análise de documentos sofrem de limitações significativas em termos de diversidade e avaliação abrangente. Para enfrentar esses desafios, apresentamos o OmniDocBench, um novo benchmark de várias fontes projetado para avançar a extração automatizada de conteúdo de documentos. O OmniDocBench inclui um conjunto de dados de avaliação de alta qualidade meticulosamente elaborado e anotado, composto por nove tipos diversos de documentos, como artigos acadêmicos, livros didáticos, slides, entre outros. Nosso benchmark fornece um framework de avaliação flexível e abrangente com 19 rótulos de categoria de layout e 14 rótulos de atributo, possibilitando avaliações em vários níveis em conjuntos de dados completos, módulos individuais ou tipos de dados específicos. Utilizando o OmniDocBench, realizamos uma análise comparativa exaustiva de pipelines modulares existentes e métodos multimodais de ponta a ponta, destacando suas limitações no tratamento da diversidade de documentos e garantindo uma avaliação justa. O OmniDocBench estabelece um padrão de avaliação robusto, diversificado e justo para o campo de extração de conteúdo de documentos, oferecendo insights cruciais para avanços futuros e promovendo o desenvolvimento de tecnologias de análise de documentos. Os códigos e o conjunto de dados estão disponíveis em https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.Summary
AI-Generated Summary