Mélange d'États : Routage des Dynamiques au Niveau des Tokens pour la Génération Multimodale
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
November 15, 2025
papers.authors: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI
papers.abstract
Nous présentons MoS (Mélange d'États), un nouveau paradigme de fusion pour les modèles de diffusion multimodaux qui combine les modalités via des interactions flexibles basées sur les états. Le cœur de MoS est un routeur apprenable, opérant au niveau des tokens, qui crée des interactions dépendantes du pas de débruîtage et des entrées entre les états cachés des modalités, alignant précisément les caractéristiques au niveau token avec la trajectoire de diffusion. Ce routeur sélectionne de manière éparse les k-meilleurs états cachés et est entraîné avec une stratégie ε-greedy, sélectionnant efficacement les caractéristiques contextuelles avec un nombre minimal de paramètres apprenables et une surcharge computationnelle négligeable. Nous validons notre conception avec la génération texte-image (MoS-Image) et l'édition (MoS-Editing), qui obtiennent des résultats à la pointe de l'état de l'art. Avec seulement 3 à 5 milliards de paramètres, nos modèles égalent ou surpassent des modèles jusqu'à 4 fois plus grands. Ces résultats établissent MoS comme un paradigme flexible et efficace en calcul pour la mise à l'échelle des modèles de diffusion multimodaux.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.