ChatPaper.aiChatPaper

mPLUG-DocOwl2: Высокодетальное сжатие для понимания многостраничных документов без использования OCR

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

September 5, 2024
Авторы: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в области понимания документов без использования OCR за счет увеличения поддерживаемого разрешения изображений документов. Однако это достигается ценой генерации тысяч визуальных токенов для одного изображения документа, что приводит к чрезмерному потреблению памяти GPU и замедлению времени вывода, особенно при понимании многстраничных документов. В данной работе для решения этих проблем мы предлагаем модуль High-resolution DocCompressor, который сжимает каждое изображение документа высокого разрешения до 324 токенов под руководством глобальных визуальных признаков низкого разрешения. Используя этот модуль сжатия, для усиления способности понимания многстраничных документов и баланса между эффективностью использования токенов и производительностью вопросно-ответных систем мы разработали DocOwl2 в рамках трехэтапной схемы обучения: предварительное обучение на одиночных изображениях, продолженное предварительное обучение на множественных изображениях и многозадачная тонкая настройка. DocOwl2 устанавливает новое состояние искусства в бенчмарках понимания многстраничных документов и сокращает задержку до первого токена более чем на 50%, демонстрируя передовые возможности в ответах на вопросы по многстраничным документам, объяснении с указанием страниц-доказательств и понимании кросс-страничной структуры. Кроме того, по сравнению с одноизобразивыми MLLM, обученными на аналогичных данных, наш DocOwl2 достигает сопоставимой производительности понимания одностраничных документов, используя менее 20% визуальных токенов. Наши код, модели и данные общедоступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free Document Understanding performance by increasing the supported resolution of document images. However, this comes at the cost of generating thousands of visual tokens for a single document image, leading to excessive GPU memory and slower inference times, particularly in multi-page document comprehension. In this work, to address these challenges, we propose a High-resolution DocCompressor module to compress each high-resolution document image into 324 tokens, guided by low-resolution global visual features. With this compression module, to strengthen multi-page document comprehension ability and balance both token efficiency and question-answering performance, we develop the DocOwl2 under a three-stage training framework: Single-image Pretraining, Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new state-of-the-art across multi-page document understanding benchmarks and reduces first token latency by more than 50%, demonstrating advanced capabilities in multi-page questioning answering, explanation with evidence pages, and cross-page structure understanding. Additionally, compared to single-image MLLMs trained on similar data, our DocOwl2 achieves comparable single-page understanding performance with less than 20% of the visual tokens. Our codes, models, and data are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
PDF264November 14, 2024