状態の混合:マルチモーダル生成のためのトークンレベル動的ルーティング
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
November 15, 2025
著者: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI
要旨
我々はMoS(Mixture of States)を提案する。これはマルチモーダル拡散モデルの新たな融合パラダイムであり、柔軟な状態ベースの相互作用によってモダリティを統合する。MoSの中核をなすのは、学習可能なトークン単位のルーターであり、ノイズ除去タイムステップと入力に応じてモダリティ間の隠れ状態を動的に結合し、拡散軌道に沿ってトークンレベルの特徴を精密に調整する。このルーターは上位k個の隠れ状態を疎に選択し、ε-greedy戦略で学習されることで、最小の学習パラメータと無視可能な計算オーバーヘッドで文脈的特徴を効率的に選択する。テキストから画像への生成(MoS-Image)と編集(MoS-Editing)による検証では、State-of-the-Artの結果を達成。わずか30億から50億パラメータで、最大4倍大規模なモデルに匹敵または凌駕する性能を示した。これらの知見は、MoSがマルチモーダル拡散モデルのスケーリングにおける柔軟かつ計算効率の高いパラダイムであることを実証している。
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.