mPLUG-DocOwl2: Compressão de Alta Resolução para Compreensão de Documentos Multi-página sem OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
Autores: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Porte (MLLMs) alcançaram desempenho promissor em Compreensão de Documentos sem OCR ao aumentar a resolução suportada de imagens documentais. No entanto, isso ocorre ao custo de gerar milhares de tokens visuais para uma única imagem de documento, resultando em consumo excessivo de memória de GPU e tempos de inferência mais lentos, particularmente na compreensão de documentos multipágina. Neste trabalho, para enfrentar esses desafios, propomos um módulo High-resolution DocCompressor para comprimir cada imagem de documento de alta resolução em 324 tokens, orientado por características visuais globais de baixa resolução. Com este módulo de compressão, para fortalecer a capacidade de compreensão de documentos multipágina e equilibrar eficiência de tokens e desempenho em questionamento-resposta, desenvolvemos o DocOwl2 sob uma estrutura de treinamento em três estágios: Pré-treinamento com Imagem Única, Pré-treinamento Contínuo com Múltiplas Imagens e Ajuste Fino Multitarefa. O DocOwl2 estabelece um novo estado da arte em benchmarks de compreensão de documentos multipágina e reduz a latência do primeiro token em mais de 50%, demonstrando capacidades avançadas em questionamento-resposta multipágina, explicação com páginas de evidência e compreensão de estrutura cross-page. Adicionalmente, comparado com MLLMs de imagem única treinados em dados similares, nosso DocOwl2 alcança desempenho comparável em compreensão de página única com menos de 20% dos tokens visuais. Nossos códigos, modelos e dados estão publicamente disponíveis em https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.