La Importancia del Enrutamiento en MoE: Escalando Transformadores de Difusión con Guía de Enrutamiento Explícita
Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
October 28, 2025
Autores: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan
cs.AI
Resumen
La Mezcla de Expertos (MoE) ha surgido como un paradigma poderoso para escalar la capacidad de los modelos preservando la eficiencia computacional. A pesar de su notable éxito en los modelos de lenguaje extenso (LLMs), los intentos existentes de aplicar MoE a los Transformadores de Difusión (DiTs) han arrojado ganancias limitadas. Atribuimos esta brecha a diferencias fundamentales entre los tokens lingüísticos y visuales. Los tokens lingüísticos son semánticamente densos con una variación inter-token pronunciada, mientras que los tokens visuales exhiben redundancia espacial y heterogeneidad funcional, lo que dificulta la especialización de expertos en MoE para visión. Para ello, presentamos ProMoE, un marco MoE que cuenta con un enrutador de dos pasos con guía de enrutamiento explícita que promueve la especialización de expertos. Específicamente, esta guía incentiva al enrutador a dividir los tokens de imagen en conjuntos condicionales e incondicionales mediante enrutamiento condicional según sus roles funcionales, y a refinar las asignaciones de los tokens de imagen condicionales a través de un enrutamiento prototípico con prototipos entrenables basados en el contenido semántico. Además, la asignación de expertos basada en similitud en el espacio latente, habilitada por el enrutamiento prototípico, ofrece un mecanismo natural para incorporar guía semántica explícita, y validamos que dicha guía es crucial para MoE en visión. Sobre esta base, proponemos una función de pérdida de contraste en el enrutamiento que mejora explícitamente el proceso de enrutamiento prototípico, promoviendo la coherencia intra-experto y la diversidad inter-experto. Experimentos exhaustivos en el benchmark de ImageNet demuestran que ProMoE supera a los métodos más avanzados bajo los objetivos de entrenamiento de Flujo Rectificado y DDPM. El código y los modelos estarán disponibles públicamente.
English
Mixture-of-Experts (MoE) has emerged as a powerful paradigm for scaling model
capacity while preserving computational efficiency. Despite its notable success
in large language models (LLMs), existing attempts to apply MoE to Diffusion
Transformers (DiTs) have yielded limited gains. We attribute this gap to
fundamental differences between language and visual tokens. Language tokens are
semantically dense with pronounced inter-token variation, while visual tokens
exhibit spatial redundancy and functional heterogeneity, hindering expert
specialization in vision MoE. To this end, we present ProMoE, an MoE framework
featuring a two-step router with explicit routing guidance that promotes expert
specialization. Specifically, this guidance encourages the router to partition
image tokens into conditional and unconditional sets via conditional routing
according to their functional roles, and refine the assignments of conditional
image tokens through prototypical routing with learnable prototypes based on
semantic content. Moreover, the similarity-based expert allocation in latent
space enabled by prototypical routing offers a natural mechanism for
incorporating explicit semantic guidance, and we validate that such guidance is
crucial for vision MoE. Building on this, we propose a routing contrastive loss
that explicitly enhances the prototypical routing process, promoting
intra-expert coherence and inter-expert diversity. Extensive experiments on
ImageNet benchmark demonstrate that ProMoE surpasses state-of-the-art methods
under both Rectified Flow and DDPM training objectives. Code and models will be
made publicly available.