mPLUG-DocOwl2: Compressione ad alta risoluzione per la comprensione di documenti multi-pagina senza OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
Autori: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto prestazioni promettenti nella comprensione documentale senza OCR aumentando la risoluzione supportata delle immagini dei documenti. Tuttavia, ciò avviene al prezzo di generare migliaia di token visivi per una singola immagine documentale, portando a un consumo eccessivo di memoria GPU e tempi di inferenza più lenti, specialmente nella comprensione di documenti multipagina. In questo lavoro, per affrontare queste sfide, proponiamo un modulo High-resolution DocCompressor per comprimere ogni immagine documentale ad alta risoluzione in 324 token, guidati da caratteristiche visive globali a bassa risoluzione. Con questo modulo di compressione, per potenziare la capacità di comprensione documentale multipagina e bilanciare sia l'efficienza dei token che le prestazioni di question-answering, sviluppiamo DocOwl2 secondo un framework di addestramento in tre fasi: Pre-addestramento su immagine singola, Pre-addestramento continuato su immagini multiple e Fine-tuning multi-task. DocOwl2 stabilisce un nuovo stato dell'arte across i benchmark di comprensione documentale multipagina e riduce la latenza del primo token di oltre il 50%, dimostrando capacità avanzate nel question-answering multipagina, spiegazione con pagine di evidenza e comprensione della struttura cross-page. Inoltre, rispetto agli MLLM su immagine singola addestrati su dati simili, il nostro DocOwl2 raggiunge prestazioni di comprensione su singola pagina comparabili con meno del 20% dei token visivi. I nostri codici, modelli e dati sono pubblicamente disponibili su https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.