OmniMamba: 状態空間モデルによる効率的で統一的なマルチモーダル理解と生成
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models
March 11, 2025
著者: Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
要旨
近年、統一されたマルチモーダル理解と視覚生成(またはマルチモーダル生成)モデルの進展は、その二次的な計算複雑性と大規模な訓練データへの依存によって妨げられてきた。本論文では、OmniMambaを紹介する。これは、統一された次トークン予測パラダイムを通じてテキストと画像の両方を生成する、初の線形アーキテクチャに基づくマルチモーダル生成モデルである。このモデルは、Mamba-2の高い計算効率とメモリ効率を最大限に活用し、その能力をテキスト生成からマルチモーダル生成へと拡張する。既存の統一モデルのデータ非効率性に対処するため、我々は二つの主要な革新を提案する:(1) モダリティ固有の生成を導くための分離された語彙、(2) パラメータ効率の良い適応のためのタスク固有のLoRA。さらに、二つのタスク間のデータ不均衡を緩和するために、分離された二段階の訓練戦略を導入する。これらの技術を備えたOmniMambaは、JanusFlowと競争力のある性能を達成し、Show-oをベンチマークで上回る。これは、Show-oの1,000分の1に過ぎない200万の画像-テキストペアで訓練されたにもかかわらずである。特に、OmniMambaは優れた推論効率で際立っており、Transformerベースのモデルと比較して、長いシーケンス生成において最大119.2倍の高速化と63%のGPUメモリ削減を実現する。コードとモデルはhttps://github.com/hustvl/OmniMambaで公開されている。
English
Recent advancements in unified multimodal understanding and visual generation
(or multimodal generation) models have been hindered by their quadratic
computational complexity and dependence on large-scale training data. We
present OmniMamba, the first linear-architecture-based multimodal generation
model that generates both text and images through a unified next-token
prediction paradigm. The model fully leverages Mamba-2's high computational and
memory efficiency, extending its capabilities from text generation to
multimodal generation. To address the data inefficiency of existing unified
models, we propose two key innovations: (1) decoupled vocabularies to guide
modality-specific generation, and (2) task-specific LoRA for
parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage
training strategy to mitigate data imbalance between two tasks. Equipped with
these techniques, OmniMamba achieves competitive performance with JanusFlow
while surpassing Show-o across benchmarks, despite being trained on merely 2M
image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba
stands out with outstanding inference efficiency, achieving up to a 119.2 times
speedup and 63% GPU memory reduction for long-sequence generation compared to
Transformer-based counterparts. Code and models are released at
https://github.com/hustvl/OmniMambaSummary
AI-Generated Summary