Mezcla de Estados: Enrutamiento de la Dinámica a Nivel de Token para la Generación Multimodal
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
November 15, 2025
Autores: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI
Resumen
Introducimos MoS (Mezcla de Estados), un nuevo paradigma de fusión para modelos de difusión multimodal que combina modalidades mediante interacciones flexibles basadas en estados. El núcleo de MoS es un enrutador entrenable a nivel de token que crea interacciones dependientes del paso de eliminación de ruido y de la entrada entre los estados ocultos de las modalidades, alineando precisamente las características a nivel de token con la trayectoria de difusión. Este enrutador selecciona de forma dispersa los k estados ocultos más relevantes y se entrena con una estrategia ε-greedy, seleccionando eficientemente características contextuales con un mínimo de parámetros entrenables y una sobrecarga computacional insignificante. Validamos nuestro diseño con generación (MoS-Imagen) y edición (MoS-Edición) de texto a imagen, que logran resultados de vanguardia. Con solo 3B a 5B de parámetros, nuestros modelos igualan o superan a contrapartes hasta 4 veces más grandes. Estos hallazgos establecen a MoS como un paradigma flexible y computacionalmente eficiente para escalar modelos de difusión multimodal.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.