mPLUG-DocOwl 1.5:OCR不要のドキュメント理解のための統合構造学習
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
著者: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
要旨
構造情報は、文書、表、チャートなどのテキスト豊富な画像の意味を理解するために重要である。既存の視覚的文書理解のためのマルチモーダル大規模言語モデル(MLLMs)はテキスト認識能力を備えているが、テキスト豊富な文書画像に対する一般的な構造理解能力を欠いている。本研究では、視覚的文書理解における構造情報の重要性を強調し、MLLMsの性能を向上させるための統一構造学習(Unified Structure Learning)を提案する。我々の統一構造学習は、文書、ウェブページ、表、チャート、自然画像の5つのドメインにわたる構造認識解析タスクとマルチグレインのテキスト位置特定タスクから構成される。構造情報をより良くエンコードするために、レイアウト情報を維持しつつ、畳み込みを通じて水平方向に隣接するパッチを統合することで視覚的特徴の長さを短縮する、シンプルで効果的なビジョン・トゥ・テキストモジュールH-Reducerを設計した。これにより、LLMが高解像度画像をより効率的に理解できるようになる。さらに、公開されているテキスト豊富な画像に対して構造認識テキストシーケンスとマルチグレインのテキストとバウンディングボックスのペアを構築し、構造学習をサポートする包括的なトレーニングセットDocStruct4Mを構築した。最後に、文書ドメインにおける詳細な説明能力を引き出すために、小規模ながら高品質な推論チューニングデータセットDocReason25Kを構築した。我々のモデルDocOwl 1.5は、10の視覚的文書理解ベンチマークで最先端の性能を達成し、7B LLMを用いたMLLMsのSOTA性能を5/10のベンチマークで10ポイント以上向上させた。我々のコード、モデル、データセットはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5で公開されている。
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.Summary
AI-Generated Summary