OmniDocBench: Сравнительный анализ разнообразного разбора PDF-документов с подробными аннотациями
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
December 10, 2024
Авторы: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
cs.AI
Аннотация
Извлечение содержимого документа имеет важное значение в компьютерном зрении, особенно для удовлетворения потребностей крупных языковых моделей (LLM) и технологий генерации с использованием поиска (RAG) в высококачественных данных. Однако текущие методы разбора документов страдают от значительных ограничений в разнообразии и полноценной оценке. Для решения этих проблем мы представляем OmniDocBench, новый многоканальный бенчмарк, разработанный для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, включающий девять различных типов документов, таких как научные статьи, учебники, слайды и другие. Наш бенчмарк предоставляет гибкую и всестороннюю систему оценки с 19 метками категорий макета и 14 атрибутными метками, обеспечивая многоуровневые оценки по всему набору данных, отдельным модулям или конкретным типам данных. С использованием OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных конвейеров и мультимодальных методов end-to-end, выявляя их ограничения в работе с разнообразием документов и обеспечивая справедливую оценку. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих усовершенствований и способствуя развитию технологий разбора документов. Коды и набор данных доступны по ссылке https://github.com/opendatalab/OmniDocBench.
English
Document content extraction is crucial in computer vision, especially for
meeting the high-quality data needs of large language models (LLMs) and
retrieval-augmented generation (RAG) technologies. However, current document
parsing methods suffer from significant limitations in terms of diversity and
comprehensive evaluation. To address these challenges, we introduce
OmniDocBench, a novel multi-source benchmark designed to advance automated
document content extraction. OmniDocBench includes a meticulously curated and
annotated high-quality evaluation dataset comprising nine diverse document
types, such as academic papers, textbooks, slides, among others. Our benchmark
provides a flexible and comprehensive evaluation framework with 19 layout
category labels and 14 attribute labels, enabling multi-level assessments
across entire datasets, individual modules, or specific data types. Using
OmniDocBench, we perform an exhaustive comparative analysis of existing modular
pipelines and multimodal end-to-end methods, highlighting their limitations in
handling document diversity and ensuring fair evaluation. OmniDocBench
establishes a robust, diverse, and fair evaluation standard for the document
content extraction field, offering crucial insights for future advancements and
fostering the development of document parsing technologies. The codes and
dataset is available in https://github.com/opendatalab/OmniDocBench.Summary
AI-Generated Summary