Mixture-of-Mamba: モダリティに注意した疎なマルチモーダル状態空間モデルの強化
Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity
January 27, 2025
著者: Weixin Liang, Junhong Shen, Genghan Zhang, Ning Dong, Luke Zettlemoyer, Lili Yu
cs.AI
要旨
状態空間モデル(State Space Models、SSMs)は、シーケンシャルモデリングにおいてTransformerに対する効率的な代替手段として登場していますが、モダリティ固有の特徴を活用できないため、マルチモーダル事前学習における性能が制限されています。本研究では、Mixture-of-Mambaという新しいSSMアーキテクチャを提案し、Mambaブロックのモダリティに対するパラメータ化を介してモダリティに意識した疎さを導入します。Mixture-of-Transformers(W. Liangら、arXiv:2411.04996; 2024)を基盤とし、モダリティに意識した疎さの利点をSSMsに拡張しつつ、計算効率を維持します。我々は、Transfusion(交互に配置されたテキストと連続画像トークンに拡散損失を伴う)、Chameleon(交互に配置されたテキストと離散画像トークン)、および音声を組み込んだ拡張された三モダリティフレームワークの3つのマルチモーダル事前学習設定でMixture-of-Mambaを評価します。Mixture-of-Mambaは、訓練コストを大幅に削減しつつ、一貫して同等の損失値に早期に到達します。Transfusion設定では、Mixture-of-Mambaは1.4Bスケールで訓練FLOPsの34.76%のみを使用して同等の画像損失を達成します。Chameleon設定では、Mixture-of-Mambaは1.4Bスケールで42.50%のFLOPsで同等の画像損失を達成し、65.40%のFLOPsで同等のテキスト損失を達成します。三モダリティ設定では、Mixture-of-Mambaは1.4Bスケールで24.80%のFLOPsで音声損失に対応します。我々の削減研究は、射影コンポーネントの分離効果の相乗効果を示し、共同分離が個々の修正よりも大きな利益をもたらすことを明らかにしています。これらの結果は、モダリティに意識した疎さを柔軟で効果的な設計原則として確立し、TransformersからSSMsへの影響を拡大し、マルチモーダル事前学習において新たな基準を設定しています。我々のコードは、https://github.com/Weixin-Liang/Mixture-of-Mamba でアクセス可能です。
English
State Space Models (SSMs) have emerged as efficient alternatives to
Transformers for sequential modeling, but their inability to leverage
modality-specific features limits their performance in multi-modal pretraining.
Here, we propose Mixture-of-Mamba, a novel SSM architecture that introduces
modality-aware sparsity through modality-specific parameterization of the Mamba
block. Building on Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996;
2024), we extend the benefits of modality-aware sparsity to SSMs while
preserving their computational efficiency. We evaluate Mixture-of-Mamba across
three multi-modal pretraining settings: Transfusion (interleaved text and
continuous image tokens with diffusion loss), Chameleon (interleaved text and
discrete image tokens), and an extended three-modality framework incorporating
speech. Mixture-of-Mamba consistently reaches the same loss values at earlier
training steps with significantly reduced computational costs. In the
Transfusion setting, Mixture-of-Mamba achieves equivalent image loss using only
34.76% of the training FLOPs at the 1.4B scale. In the Chameleon setting,
Mixture-of-Mamba reaches similar image loss with just 42.50% of the FLOPs at
the 1.4B scale, and similar text loss with just 65.40% of the FLOPs. In the
three-modality setting, MoM matches speech loss at 24.80% of the FLOPs at the
1.4B scale. Our ablation study highlights the synergistic effects of decoupling
projection components, where joint decoupling yields greater gains than
individual modifications. These results establish modality-aware sparsity as a
versatile and effective design principle, extending its impact from
Transformers to SSMs and setting new benchmarks in multi-modal pretraining. Our
code can be accessed at https://github.com/Weixin-Liang/Mixture-of-MambaSummary
AI-Generated Summary