ChatPaper.aiChatPaper

Mistura de Estados: Roteamento de Dinâmicas em Nível de Token para Geração Multimodal

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

November 15, 2025
Autores: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI

Resumo

Apresentamos o MoS (Mixture of States), um novo paradigma de fusão para modelos de difusão multimodal que combina modalidades por meio de interações flexíveis baseadas em estados. O cerne do MoS é um roteador aprendível, a nível de token, que cria interações dependentes do *timestep* de remoção de ruído e da entrada entre os estados ocultos das modalidades, alinhando com precisão as características em nível de token com a trajetória de difusão. Este roteador seleciona esparsamente os *k* estados ocultos mais relevantes e é treinado com uma estratégia ε-greedy, selecionando eficientemente características contextuais com parâmetros aprendíveis mínimos e sobrecarga computacional insignificante. Validamos nosso projeto com geração de texto para imagem (MoS-Image) e edição (MoS-Editing), que alcançam resultados de última geração. Com apenas 3B a 5B de parâmetros, nossos modelos igualam ou superam contrapartes até 4 vezes maiores. Essas descobertas estabelecem o MoS como um paradigma flexível e computacionalmente eficiente para escalar modelos de difusão multimodal.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.
PDF102February 24, 2026