ChatPaper.aiChatPaper

Miscela di Stati: Instradamento delle Dinamiche a Livello di Token per la Generazione Multimodale

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

November 15, 2025
Autori: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI

Abstract

Introduciamo MoS (Mixture of States), un nuovo paradigma di fusione per modelli di diffusione multimodale che combina le modalità mediante interazioni flessibili basate sugli stati. Il cuore di MoS è un router apprendibile, operante a livello di token, che crea interazioni dipendenti dal timestep di denoising e dall'input tra gli stati nascosti delle diverse modalità, allineando con precisione le caratteristiche a livello di token con la traiettoria di diffusione. Questo router seleziona in modo sparso i top-k stati nascosti ed è addestrato con una strategia ε-greedy, selezionando in modo efficiente le caratteristiche contestuali con parametri apprendibili minimi e un overhead computazionale trascurabile. Convalidiamo il nostro progetto con la generazione (MoS-Image) e l'editing (MoS-Editing) testo-immagine, che raggiungono risultati all'avanguardia. Con soli 3-5 miliardi di parametri, i nostri modelli eguagliano o superano controparti fino a 4 volte più grandi. Questi risultati stabiliscono MoS come un paradigma flessibile e computazionalmente efficiente per il scaling dei modelli di diffusione multimodale.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.
PDF62December 2, 2025