ChatPaper.aiChatPaper

Mengsel van Toestanden: Routering van Token-Level Dynamiek voor Multimodale Generatie

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

November 15, 2025
Auteurs: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI

Samenvatting

Wij introduceren MoS (Mixture of States), een nieuw fusieparadigma voor multimodale diffusiemodellen dat modaliteiten samenvoegt met behulp van flexibele, op toestanden gebaseerde interacties. De kern van MoS is een leerbare, token-gewijze router die ruisverwijderingstijdstap- en invoerafhankelijke interacties creëert tussen de verborgen toestanden van modaliteiten, waardoor token-niveau kenmerken nauwkeurig worden uitgelijnd met het diffusietraject. Deze router selecteert spaarzaam de top-k verborgen toestanden en wordt getraind met een ε-greedy strategie, waarbij hij efficiënt contextuele kenmerken selecteert met minimale leerbare parameters en verwaarloosbare rekenkosten. Wij valideren ons ontwerp met tekst-naar-beeldgeneratie (MoS-Image) en -bewerking (MoS-Editing), die state-of-the-art resultaten behalen. Met slechts 3 tot 5 miljard parameters evenaren of overtreffen onze modellen tegenhangers die tot 4 keer groter zijn. Deze bevindingen vestigen MoS als een flexibel en rekenzuinig paradigma voor het schalen van multimodale diffusiemodellen.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.
PDF62December 2, 2025