Mischung von Zuständen: Routing von Token-Dynamiken für multimodale Erzeugung
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
November 15, 2025
papers.authors: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI
papers.abstract
Wir stellen MoS (Mixture of States), ein neuartiges Fusionsparadigma für multimodale Diffusionsmodelle vor, das Modalitäten durch flexible, zustandsbasierte Interaktionen vereint. Der Kern von MoS ist ein lernbarer, tokenweiser Router, der denoisierungs-zeitschritt- und eingabeabhängige Interaktionen zwischen den verborgenen Zuständen der Modalitäten erzeugt und so token-level Merkmale präzise mit der Diffusionsbahn abstimmt. Dieser Router wählt spärlich die Top-k verborgenen Zustände aus und wird mit einer ε-greedy-Strategie trainiert, wodurch kontextuelle Merkmale effizient mit minimalen lernbaren Parametern und vernachlässigbarem Rechenaufwand selektiert werden. Wir validieren unser Design mit Text-zu-Bild-Generierung (MoS-Image) und -Bearbeitung (MoS-Editing), die state-of-the-art Ergebnisse erzielen. Mit nur 3 bis 5 Milliarden Parametern übertreffen oder erreichen unsere Modelle Gegenstücke, die bis zu viermal größer sind. Diese Ergebnisse etablieren MoS als ein flexibles und recheneffizientes Paradigma zur Skalierung multimodaler Diffusionsmodelle.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.