mPLUG-DocOwl 1.5:OCR不要のドキュメント理解のための統合構造学習mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document
Understanding
構造情報は、文書、表、チャートなどのテキスト豊富な画像の意味を理解するために重要である。既存の視覚的文書理解のためのマルチモーダル大規模言語モデル(MLLMs)はテキスト認識能力を備えているが、テキスト豊富な文書画像に対する一般的な構造理解能力を欠いている。本研究では、視覚的文書理解における構造情報の重要性を強調し、MLLMsの性能を向上させるための統一構造学習(Unified Structure Learning)を提案する。我々の統一構造学習は、文書、ウェブページ、表、チャート、自然画像の5つのドメインにわたる構造認識解析タスクとマルチグレインのテキスト位置特定タスクから構成される。構造情報をより良くエンコードするために、レイアウト情報を維持しつつ、畳み込みを通じて水平方向に隣接するパッチを統合することで視覚的特徴の長さを短縮する、シンプルで効果的なビジョン・トゥ・テキストモジュールH-Reducerを設計した。これにより、LLMが高解像度画像をより効率的に理解できるようになる。さらに、公開されているテキスト豊富な画像に対して構造認識テキストシーケンスとマルチグレインのテキストとバウンディングボックスのペアを構築し、構造学習をサポートする包括的なトレーニングセットDocStruct4Mを構築した。最後に、文書ドメインにおける詳細な説明能力を引き出すために、小規模ながら高品質な推論チューニングデータセットDocReason25Kを構築した。我々のモデルDocOwl 1.5は、10の視覚的文書理解ベンチマークで最先端の性能を達成し、7B LLMを用いたMLLMsのSOTA性能を5/10のベンチマークで10ポイント以上向上させた。我々のコード、モデル、データセットはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5で公開されている。