Mistura de Estados: Roteamento de Dinâmicas em Nível de Token para Geração Multimodal

Resumo

Apresentamos o MoS (Mixture of States), um novo paradigma de fusão para modelos de difusão multimodal que combina modalidades por meio de interações flexíveis baseadas em estados. O cerne do MoS é um roteador aprendível, a nível de token, que cria interações dependentes do *timestep* de remoção de ruído e da entrada entre os estados ocultos das modalidades, alinhando com precisão as características em nível de token com a trajetória de difusão. Este roteador seleciona esparsamente os *k* estados ocultos mais relevantes e é treinado com uma estratégia ε-greedy, selecionando eficientemente características contextuais com parâmetros aprendíveis mínimos e sobrecarga computacional insignificante. Validamos nosso projeto com geração de texto para imagem (MoS-Image) e edição (MoS-Editing), que alcançam resultados de última geração. Com apenas 3B a 5B de parâmetros, nossos modelos igualam ou superam contrapartes até 4 vezes maiores. Essas descobertas estabelecem o MoS como um paradigma flexível e computacionalmente eficiente para escalar modelos de difusão multimodal.

English

We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.

Mistura de Estados: Roteamento de Dinâmicas em Nível de Token para Geração Multimodal

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

Resumo

Support