ChatPaper.aiChatPaper

ARMOR v0.1:非対称シナジーによるインタリーブ型マルチモーダル生成を備えた 自己回帰型マルチモーダル理解モデルの強化

ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

March 9, 2025
著者: Jianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang
cs.AI

要旨

視覚と言語の分野において、マルチモーダル理解と生成のための統一モデル(UniMs)が最近注目を集めています。既存のUniMsは、マルチモーダル理解と生成能力を同時に学習するように設計されており、多大な計算リソースを必要とし、テキストと画像の交互生成に苦戦することが多いです。本論文では、ARMORを提案します。ARMORは、既存のマルチモーダル大規模言語モデル(MLLMs)を微調整することで、理解と生成の両方を実現する、リソース効率の良い純粋な自己回帰型フレームワークです。具体的には、ARMORは既存のMLLMsを以下の3つの観点から拡張します:(1)モデルアーキテクチャにおいて、テキストと視覚モダリティを統合する埋め込み空間を統一し、最小限の計算オーバーヘッドで自然なテキストと画像の交互生成を可能にするために、フォワードスイッチングメカニズムを備えた非対称エンコーダ-デコーダアーキテクチャを導入します。(2)トレーニングデータにおいて、MLLMsの微調整用に厳選された高品質な交互データセットを収集します。(3)トレーニングアルゴリズムにおいて、収集したデータセットに基づく3段階のプログレッシブトレーニングを通じて、マルチモーダル生成能力を既存のMLLMsに付与しつつ、そのマルチモーダル理解能力を維持するための「何をまたはどのように生成するか」アルゴリズムを提案します。実験結果は、ARMORが限られたトレーニングリソースを使用して、既存のMLLMsを有望な画像生成能力を持つUniMsにアップグレードすることを示しています。私たちのコードはまもなくhttps://armor.github.ioで公開されます。
English
Unified models (UniMs) for multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a ``what or how to generate" algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://armor.github.io.
PDF82March 17, 2025