OmniDocBench: Сравнительный анализ разнообразного разбора PDF-документов с подробными аннотациямиOmniDocBench: Benchmarking Diverse PDF Document Parsing with
Comprehensive Annotations
Извлечение содержимого документа имеет важное значение в компьютерном зрении, особенно для удовлетворения потребностей крупных языковых моделей (LLM) и технологий генерации с использованием поиска (RAG) в высококачественных данных. Однако текущие методы разбора документов страдают от значительных ограничений в разнообразии и полноценной оценке. Для решения этих проблем мы представляем OmniDocBench, новый многоканальный бенчмарк, разработанный для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, включающий девять различных типов документов, таких как научные статьи, учебники, слайды и другие. Наш бенчмарк предоставляет гибкую и всестороннюю систему оценки с 19 метками категорий макета и 14 атрибутными метками, обеспечивая многоуровневые оценки по всему набору данных, отдельным модулям или конкретным типам данных. С использованием OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных конвейеров и мультимодальных методов end-to-end, выявляя их ограничения в работе с разнообразием документов и обеспечивая справедливую оценку. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих усовершенствований и способствуя развитию технологий разбора документов. Коды и набор данных доступны по ссылке https://github.com/opendatalab/OmniDocBench.