ChatPaper.aiChatPaper

mPLUG-Owl2: モダリティ連携によるマルチモーダル大規模言語モデルの革新

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

November 7, 2023
著者: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, Anwen HU
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、様々なオープンエンドタスクにおいて印象的な指示能力を発揮してきました。しかし、従来の手法は主にマルチモーダル能力の向上に焦点を当てていました。本研究では、テキストタスクとマルチモーダルタスクの両方で性能を向上させるために、モダリティ間の協調を効果的に活用する汎用マルチモーダル大規模言語モデルmPLUG-Owl2を提案します。mPLUG-Owl2はモジュール化されたネットワーク設計を採用し、言語デコーダが異なるモダリティを管理するためのユニバーサルインターフェースとして機能します。具体的には、mPLUG-Owl2はモダリティ間の協調を促進する共有機能モジュールを組み込み、モダリティ固有の特徴を保持するモダリティ適応モジュールを導入します。大規模な実験により、mPLUG-Owl2がテキストタスクとマルチモーダルタスクの両方に汎化可能であり、単一の汎用モデルで最先端の性能を達成できることが明らかになりました。特に、mPLUG-Owl2は純粋なテキストとマルチモーダルの両シナリオでモダリティ協調現象を示す初めてのMLLMモデルであり、将来のマルチモーダル基盤モデルの開発において先駆的な道を切り開いています。
English
Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
PDF222December 15, 2024