mPLUG-Owl3: マルチモーダル大規模言語モデルにおける長い画像シーケンス理解に向けて
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
August 9, 2024
著者: Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、さまざまな単一画像タスクにおける指示実行において顕著な能力を発揮してきた。しかしながら、長い画像シーケンスのモデリングにおいては依然として重要な課題が残されている。本研究では、検索された画像-テキスト知識、交互に配置された画像-テキスト、および長時間の動画を含むシナリオにおいて、長い画像シーケンスの理解能力を強化する汎用的なマルチモーダル大規模言語モデル、mPLUG-Owl3を紹介する。具体的には、視覚と言語を共通の言語誘導型意味空間に効率的に統合するための新しいハイパーアテンションブロックを提案し、これにより拡張された複数画像シナリオの処理を容易にする。広範な実験結果は、mPLUG-Owl3が単一画像、複数画像、および動画ベンチマークにおいて、同規模のモデルの中で最先端の性能を達成することを示唆している。さらに、モデルが注意を維持する能力を評価するために、Distractor Resistanceという挑戦的な長い視覚シーケンス評価を提案する。最後に、提案されたアーキテクチャにより、mPLUG-Owl3は超長い視覚シーケンス入力において優れた性能を発揮する。mPLUG-Owl3が、より効率的で強力なマルチモーダル大規模言語モデルの開発に貢献することを期待する。
English
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable
capabilities in executing instructions for a variety of single-image tasks.
Despite this progress, significant challenges remain in modeling long image
sequences. In this work, we introduce the versatile multi-modal large language
model, mPLUG-Owl3, which enhances the capability for long image-sequence
understanding in scenarios that incorporate retrieved image-text knowledge,
interleaved image-text, and lengthy videos. Specifically, we propose novel
hyper attention blocks to efficiently integrate vision and language into a
common language-guided semantic space, thereby facilitating the processing of
extended multi-image scenarios. Extensive experimental results suggest that
mPLUG-Owl3 achieves state-of-the-art performance among models with a similar
size on single-image, multi-image, and video benchmarks. Moreover, we propose a
challenging long visual sequence evaluation named Distractor Resistance to
assess the ability of models to maintain focus amidst distractions. Finally,
with the proposed architecture, mPLUG-Owl3 demonstrates outstanding performance
on ultra-long visual sequence inputs. We hope that mPLUG-Owl3 can contribute to
the development of more efficient and powerful multimodal large language
models.Summary
AI-Generated Summary