mPLUG-DocOwl2 : Compression haute résolution pour la compréhension de documents multipages sans OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
papers.authors: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLM) ont obtenu des performances prometteuses en compréhension de documents sans OCR en augmentant la résolution supportée des images documentaires. Cependant, cela se fait au prix de la génération de milliers de tokens visuels pour une seule image documentaire, entraînant une consommation excessive de mémoire GPU et des temps d'inférence plus lents, particulièrement dans la compréhension de documents multi-pages. Dans ce travail, pour relever ces défis, nous proposons un module DocCompressor haute résolution permettant de compresser chaque image documentaire haute résolution en 324 tokens, guidé par des caractéristiques visuelles globales basse résolution. Avec ce module de compression, pour renforcer la capacité de compréhension des documents multi-pages et équilibrer à la fois l'efficacité token et les performances en question-réponse, nous développons DocOwl2 selon un cadre d'entraînement en trois étapes : pré-entraînement sur image unique, pré-entraînement continu sur images multiples, et affinage multi-tâches. DocOwl2 établit un nouvel état de l'art sur les benchmarks de compréhension de documents multi-pages et réduit la latence du premier token de plus de 50%, démontrant des capacités avancées en question-réponse multi-pages, en explication avec pages de preuve et en compréhension structurelle trans-pages. De plus, comparé aux MLLM mono-image entraînés sur des données similaires, notre DocOwl2 atteint des performances comparables en compréhension de page unique avec moins de 20% des tokens visuels. Nos codes, modèles et données sont disponibles publiquement à l'adresse https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.