mPLUG-DocOwl2: Compressie met hoge resolutie voor OCR-vrije begripsvorming van meerdere pagina's in documenten
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
Auteurs: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) hebben veelbelovende prestaties bereikt voor Documentbegrip zonder OCR door de ondersteunde resolutie van documentafbeeldingen te verhogen. Dit gaat echter ten koste van het genereren van duizenden visuele tokens voor een enkele documentafbeelding, wat leidt tot excessief GPU-geheugengebruik en tragere inferentietijden, vooral bij het begrijpen van documenten met meerdere pagina's. In dit werk stellen we, om deze uitdagingen aan te pakken, een High-resolution DocCompressor-module voor om elke hoge-resolutie documentafbeelding te comprimeren tot 324 tokens, geleid door globale visuele kenmerken van lage resolutie. Met deze compressiemodule ontwikkelen we DocOwl2 onder een drietraps-trainingsraamwerk om het begrip van documenten met meerdere pagina's te versterken en zowel tokenefficiëntie als vraag-antwoordprestaties in evenwicht te brengen: Pretraining met één afbeelding, Voortgezette pretraining met meerdere afbeeldingen en Multitask-finetuning. DocOwl2 vestigt een nieuwe state-of-the-art op benchmarks voor begrip van documenten met meerdere pagina's en vermindert de latentie van de eerste token met meer dan 50%, wat geavanceerde capaciteiten aantoont in het beantwoorden van vragen over meerdere pagina's, uitleg met bewijspagina's en begrip van de structuur over pagina's heen. Verder bereikt onze DocOwl2, in vergelijking met MLLM's voor één afbeelding die op vergelijkbare data zijn getraind, vergelijkbare prestaties voor begrip van één pagina met minder dan 20% van de visuele tokens. Onze code, modellen en data zijn openbaar beschikbaar op https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.