ChatPaper.aiChatPaper

Смесь состояний: маршрутизация токен-уровневой динамики для мультимодального порождения

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

November 15, 2025
Авторы: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI

Аннотация

Мы представляем MoS (Mixture of States, Смешение Состояний) — новую парадигму фьюжена для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких взаимодействий на основе состояний. В основе MoS лежит обучаемый, покомпонентный (token-wise) маршрутизатор, который создает взаимодействия между скрытыми состояниями модальностей, зависящие от шага денойзинга и входных данных, точно выравнивая признаки на уровне компонентов с траекторией диффузии. Этот маршрутизатор разреженно выбирает топ-k скрытых состояний и обучается по стратегии ε-жадности, эффективно отбирая контекстные признаки с минимальным количеством обучаемых параметров и пренебрежимо малыми вычислительными затратами. Мы проверяем нашу разработку на задачах генерации (MoS-Image) и редактирования (MoS-Editing) изображений по тексту, которые достигают наилучших на сегодняшний день результатов. Всего с 3 до 5 миллиардами параметров наши модели соответствуют или превосходят аналоги размером до 4 раз больше. Эти результаты утверждают MoS как гибкую и вычислительно эффективную парадигму для масштабирования мультимодальных диффузионных моделей.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.
PDF62December 2, 2025