ARMOR v0.1:非対称シナジーによるインタリーブ型マルチモーダル生成を備えた 自己回帰型マルチモーダル理解モデルの強化
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy
March 9, 2025
著者: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI
要旨
視覚と言語の分野において、マルチモーダル理解と生成のための統一モデル(UniMs)が最近注目を集めています。既存のUniMsは、マルチモーダル理解と生成能力を同時に学習するように設計されており、多大な計算リソースを必要とし、テキストと画像の交互生成に苦戦することが多いです。本論文では、ARMORを提案します。ARMORは、既存のマルチモーダル大規模言語モデル(MLLMs)を微調整することで、理解と生成の両方を実現する、リソース効率の良い純粋な自己回帰型フレームワークです。具体的には、ARMORは既存のMLLMsを以下の3つの観点から拡張します:(1)モデルアーキテクチャにおいて、テキストと視覚モダリティを統合する埋め込み空間を統一し、最小限の計算オーバーヘッドで自然なテキストと画像の交互生成を可能にするために、フォワードスイッチングメカニズムを備えた非対称エンコーダ-デコーダアーキテクチャを導入します。(2)トレーニングデータにおいて、MLLMsの微調整用に厳選された高品質な交互データセットを収集します。(3)トレーニングアルゴリズムにおいて、収集したデータセットに基づく3段階のプログレッシブトレーニングを通じて、マルチモーダル生成能力を既存のMLLMsに付与しつつ、そのマルチモーダル理解能力を維持するための「何をまたはどのように生成するか」アルゴリズムを提案します。実験結果は、ARMORが限られたトレーニングリソースを使用して、既存のMLLMsを有望な画像生成能力を持つUniMsにアップグレードすることを示しています。私たちのコードはまもなくhttps://armor.github.ioで公開されます。
English
Unified models (UniMs) for multimodal understanding and generation have
recently received much attention in the area of vision and language. Existing
UniMs are designed to simultaneously learn both multimodal understanding and
generation capabilities, demanding substantial computational resources, and
often struggle to generate interleaved text-image. We present ARMOR, a
resource-efficient and pure autoregressive framework that achieves both
understanding and generation by fine-tuning existing multimodal large language
models (MLLMs). Specifically, ARMOR extends existing MLLMs from three
perspectives: (1) For model architecture, an asymmetric encoder-decoder
architecture with a forward-switching mechanism is introduced to unify
embedding space integrating textual and visual modalities for enabling natural
text-image interleaved generation with minimal computational overhead. (2) For
training data, a meticulously curated, high-quality interleaved dataset is
collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a
``what or how to generate" algorithm to empower existing MLLMs with multimodal
generation capabilities while preserving their multimodal understanding
capabilities, through three progressive training stages based on the collected
dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to
UniMs with promising image generation capabilities, using limited training
resources. Our code will be released soon at https://armor.github.io.