La Alineación de Variedades de Enrutamiento Mejora la Generalización de los Modelos de Lenguaje Grandes de Mezcla de Expertos
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
November 10, 2025
Autores: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Resumen
Las Mezclas Dispersas de Expertos (MoE) han sido ampliamente adoptadas en los grandes modelos de lenguaje recientes, ya que permiten escalar eficientemente la capacidad del modelo sin aumentar el coste de inferencia. Sin embargo, las evaluaciones en una amplia gama de tareas descendentes revelan una suboptimalidad consistente de los enrutadores en los MoE-LLM existentes, lo que resulta en una brecha de rendimiento severa (por ejemplo, del 10-20% en precisión) respecto al enrutamiento óptimo. En este artículo, demostramos que alinear la variedad de los pesos de enrutamiento con la de la incrustación de tareas puede reducir efectivamente esta brecha y mejorar el rendimiento de generalización de los MoE-LLM. Nuestro método, "Alineación de la Variedad de Enrutamiento (RoMA)", introduce un término de regularización de variedad adicional en el objetivo de ajuste posterior y solo requiere un ajuste ligero de los enrutadores (con los demás parámetros congelados). Específicamente, la regularización fomenta que los pesos de enrutamiento de cada muestra se acerquen a los de sus vecinos exitosos (cuyos pesos de enrutamiento conducen a respuestas correctas) en un espacio de incrustación de tareas. En consecuencia, las muestras dirigidas a tareas similares compartirán elecciones de expertos similares a través de las capas. Establecer tales vínculos entre tareas y expertos en diferentes muestras es esencial para lograr una mejor generalización. Además, RoMA demuestra la ventaja de unificar la comprensión de la tarea (mediante modelos de incrustación) con la generación de soluciones (mediante MoE-LLM). En los experimentos, ajustamos los enrutadores en OLMoE, DeepSeekMoE y Qwen3-MoE utilizando RoMA. Las evaluaciones en diversos benchmarks y las extensas comparaciones con líneas base muestran la mejora sustancial aportada por RoMA.
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large
language models since it can efficiently scale up the model capability without
increasing the inference cost. However, evaluations on broad downstream tasks
reveal a consistent suboptimality of the routers in existing MoE LLMs, which
results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal
routing. In this paper, we show that aligning the manifold of routing weights
with that of task embedding can effectively reduce the gap and improve MoE
LLMs' generalization performance. Our method, "Routing Manifold Alignment
(RoMA)", introduces an additional manifold regularization term in the
post-training objective and only requires lightweight finetuning of routers
(with other parameters frozen). Specifically, the regularization encourages the
routing weights of each sample to be close to those of its successful neighbors
(whose routing weights lead to correct answers) in a task embedding space.
Consequently, samples targeting similar tasks will share similar expert choices
across layers. Building such bindings between tasks and experts over different
samples is essential to achieve better generalization. Moreover, RoMA
demonstrates the advantage of unifying the task understanding (by embedding
models) with solution generation (by MoE LLMs). In experiments, we finetune
routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse
benchmarks and extensive comparisons with baselines show the substantial
improvement brought by RoMA.