ChatPaper.aiChatPaper

L'alignement des variétés de routage améliore la généralisation des modèles de langage de type mélange d'experts

Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

November 10, 2025
papers.authors: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI

papers.abstract

Les modèles de mélange d'experts parcimonieux (MoE) ont été largement adoptés dans les grands modèles de langage récents car ils permettent d'augmenter efficacement la capacité du modèle sans augmenter le coût d'inférence. Cependant, les évaluations sur un large éventail de tâches en aval révèlent une sous-optimalité persistante des routeurs dans les modèles MoE existants, ce qui entraîne un écart de performance important (par exemple, 10 à 20 % en précision) par rapport au routage optimal. Dans cet article, nous montrons qu'aligner la variété des poids de routage avec celle de l'incorporation des tâches peut efficacement réduire cet écart et améliorer la performance de généralisation des modèles MoE. Notre méthode, « Alignement de Variété de Routage (RoMA) », introduit un terme de régularisation de variété supplémentaire dans l'objectif de post-formation et ne nécessite qu'un réglage fin léger des routeurs (les autres paramètres étant gelés). Spécifiquement, la régularisation encourage les poids de routage de chaque échantillon à être proches de ceux de ses voisins réussis (dont les poids de routage conduisent à des réponses correctes) dans un espace d'incorporation de tâches. Par conséquent, les échantillons ciblant des tâches similaires partageront des choix d'experts similaires à travers les couches. Établir de telles liaisons entre les tâches et les experts sur différents échantillons est essentiel pour obtenir une meilleure généralisation. De plus, RoMA démontre l'avantage d'unifier la compréhension des tâches (par les modèles d'incorporation) avec la génération de solutions (par les modèles MoE). Dans les expériences, nous affinons les routeurs dans OLMoE, DeepSeekMoE et Qwen3-MoE en utilisant RoMA. Les évaluations sur divers benchmarks et les comparaisons approfondies avec les lignes de base montrent l'amélioration substantielle apportée par RoMA.
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large language models since it can efficiently scale up the model capability without increasing the inference cost. However, evaluations on broad downstream tasks reveal a consistent suboptimality of the routers in existing MoE LLMs, which results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal routing. In this paper, we show that aligning the manifold of routing weights with that of task embedding can effectively reduce the gap and improve MoE LLMs' generalization performance. Our method, "Routing Manifold Alignment (RoMA)", introduces an additional manifold regularization term in the post-training objective and only requires lightweight finetuning of routers (with other parameters frozen). Specifically, the regularization encourages the routing weights of each sample to be close to those of its successful neighbors (whose routing weights lead to correct answers) in a task embedding space. Consequently, samples targeting similar tasks will share similar expert choices across layers. Building such bindings between tasks and experts over different samples is essential to achieve better generalization. Moreover, RoMA demonstrates the advantage of unifying the task understanding (by embedding models) with solution generation (by MoE LLMs). In experiments, we finetune routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse benchmarks and extensive comparisons with baselines show the substantial improvement brought by RoMA.
PDF252December 2, 2025