상태 혼합: 다중모달 생성을 위한 토큰 수준 동적 경로 설정
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
November 15, 2025
저자: Haozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber
cs.AI
초록
우리는 다중모달 디퓨전 모델을 위한 새로운 퓨전 패러다임인 MoS(State Mixture)를 소개한다. MoS는 유연한 상태 기반 상호작용을 통해 모달리티를 융합한다. MoS의 핵심은 학습 가능한 토큰 단위 라우터로, 이는 모달리티 간 은닉 상태의 디노이징 타임스텝 및 입력 의존적 상호작용을 생성하여 토큰 수준 특징을 디퓨전 경로와 정확히 정렬한다. 이 라우터는 상위 k개 은닉 상태를 희소하게 선택하며 ε-그리디 전략으로 학습되어, 최소의 학습 매개변수와 무시할 수 있는 계산 오버헤드로 컨텍스트 특징을 효율적으로 선택한다. 우리는 텍스트-이미지 생성(MoS-Image) 및 편집(MoS-Editing)을 통해 설계를 검증하였으며, 이들은 최첨단 성능을 달성했다. 단 30억에서 50억 개의 매개변수만으로 우리 모델은 최대 4배 큰 경쟁 모델들을 능가하거나 동등한 성능을 보인다. 이러한 결과는 MoS가 다중모달 디퓨전 모델의 확장을 위한 유연하고 계산 효율적인 패러다임임을 입증한다.
English
We introduce MoS (Mixture of States), a novel fusion paradigm for multimodal diffusion models that merges modalities using flexible, state-based interactions. The core of MoS is a learnable, token-wise router that creates denoising timestep- and input-dependent interactions between modalities' hidden states, precisely aligning token-level features with the diffusion trajectory. This router sparsely selects the top-k hidden states and is trained with an ε-greedy strategy, efficiently selecting contextual features with minimal learnable parameters and negligible computational overhead. We validate our design with text-to-image generation (MoS-Image) and editing (MoS-Editing), which achieve state-of-the-art results. With only 3B to 5B parameters, our models match or surpass counterparts up to 4times larger. These findings establish MoS as a flexible and compute-efficient paradigm for scaling multimodal diffusion models.