mPLUG-DocOwl2: OCR不要の高解像度マルチページ文書理解のための圧縮技術
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
著者: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、文書画像の解像度対応範囲を拡大することで、OCRに依存しない文書理解において有望な性能を達成してきた。しかし、単一の文書画像に対して数千もの視覚トークンを生成する必要があるため、GPUメモリの過剰な消費や推論速度の低下、特に複数ページにわたる文書理解において課題が生じている。本研究ではこれらの課題に対処するため、高解像度文書画像を低解像度の大域的特徴に基づいて324トークンに圧縮するHigh-resolution DocCompressorモジュールを提案する。この圧縮モジュールを活用し、複数ページ文書の理解能力を強化するとともに、トークン効率と質問応答性能のバランスを最適化するため、3段階の学習フレームワーク(単一画像事前学習、複数画像継続事前学習、マルチタスクファインチューニング)でDocOwl2を開発した。DocOwl2は複数ページ文書理解ベンチマークにおいて新たな最高性能を達成し、初回トークン遅延を50%以上削減。複数ページにわたる質問応答、証拠ページを伴う説明、ページを跨ぐ構造理解において高度な能力を示した。さらに、同様のデータで学習された単一画像MLLMと比較して、視覚トークン数を20%未満に抑えながら同等の単一ページ理解性能を実現している。コード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2 で公開中。
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.