mPLUG-DocOwl2: Hochauflösende Komprimierung für OCR-freies Verständnis mehrseitiger Dokumente
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
papers.authors: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) haben durch die Erhöhung der unterstützten Auflösung von Dokumentbildern vielversprechende Leistungen im Bereich des OCR-freien Dokumentenverständnisses erzielt. Dies geht jedoch mit dem Nachteil einher, dass für ein einzelnes Dokumentbild Tausende von visuellen Tokens erzeugt werden, was zu einem übermäßigen GPU-Speicherverbrauch und langsameren Inferenzzeiten führt, insbesondere beim Verständnis mehrseitiger Dokumente. In dieser Arbeit schlagen wir zur Bewältigung dieser Herausforderungen ein High-resolution DocCompressor-Modul vor, das jedes hochauflösende Dokumentbild unter Anleitung von globalen visuellen Merkmalen niedriger Auflösung auf 324 Tokens komprimiert. Mit diesem Komprimierungsmodul entwickeln wir DocOwl2 innerhalb eines dreistufigen Trainingsframeworks – Single-image Pretraining, Multi-image Continue-pretraining und Multi-task Finetuning – um die Fähigkeit zum Verständnis mehrseitiger Dokumente zu stärken und sowohl Token-Effizienz als auch Frage-Antwort-Leistung auszugleichen. DocOwl2 setzt neue Maßstäbe (State-of-the-Art) in Benchmarks für das Verständnis mehrseitiger Dokumente und reduziert die Latenzzeit bis zum ersten Token um mehr als 50 %, was fortgeschrittene Fähigkeiten in den Bereichen belegt: Beantwortung von Fragen zu mehrseitigen Dokumenten, Erklärung mit Belegseiten und seitenübergreifendes Strukturverständnis. Darüber hinaus erreicht unser DocOwl2 im Vergleich zu Einzelbild-MLLMs, die mit ähnlichen Daten trainiert wurden, eine vergleichbare Leistung beim Verständnis einzelner Seiten mit weniger als 20 % der visuellen Tokens. Unsere Codes, Modelle und Daten sind öffentlich verfügbar unter https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.