Routeringsmanifold-uitlijning verbetert generalisatie van Mixture-of-Experts LLM's
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
November 10, 2025
Auteurs: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Samenvatting
Sparse Mixture-of-Experts (MoE) wordt tegenwoordig veel toegepast in grote taalmodellen, omdat het de modelcapaciteit efficiënt kan vergroten zonder de inferentiekosten te verhogen. Evaluaties op een breed scala aan downstreamtaken tonen echter een consistente suboptimaliteit aan van de routers in bestaande MoE-LLM's, wat resulteert in een aanzienlijk prestatieverschil (bijv. 10-20% in nauwkeurigheid) ten opzichte van optimale routing. In dit artikel tonen we aan dat het afstemmen van de variëteit (manifold) van de routeringsgewichten op die van de taakinbedding deze kloof effectief kan verkleinen en de generalisatieprestatie van MoE-LLM's kan verbeteren. Onze methode, "Routing Manifold Alignment (RoMA)", introduceert een aanvullende manifold-regularisatieterm in de post-trainingdoelstelling en vereist alleen een lichtgewicht finetunen van de routers (terwijl andere parameters bevroren blijven). Specifiek moedigt de regularisatie aan dat de routeringsgewichten van elk voorbeeld dicht bij die van zijn succesvolle buren (wiens routeringsgewichten tot correcte antwoorden leiden) in een taakinbeddingsruimte liggen. Hierdoor zullen voorbeelden die op vergelijkbare taken zijn gericht, vergelijkbare expertkeuzes over verschillende lagen delen. Het opbouwen van dergelijke verbindingen tussen taken en experts over verschillende voorbeelden is essentieel om een betere generalisatie te bereiken. Bovendien toont RoMA het voordeel aan van het verenigen van taakbegrip (door inbeddingsmodellen) met oplossingsgeneratie (door MoE-LLM's). In experimenten finetunen we de routers in OLMoE, DeepSeekMoE en Qwen3-MoE met RoMA. Evaluaties op diverse benchmarks en uitgebreide vergelijkingen met baseline-methoden tonen de substantiële verbetering aan die door RoMA wordt gebracht.
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large
language models since it can efficiently scale up the model capability without
increasing the inference cost. However, evaluations on broad downstream tasks
reveal a consistent suboptimality of the routers in existing MoE LLMs, which
results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal
routing. In this paper, we show that aligning the manifold of routing weights
with that of task embedding can effectively reduce the gap and improve MoE
LLMs' generalization performance. Our method, "Routing Manifold Alignment
(RoMA)", introduces an additional manifold regularization term in the
post-training objective and only requires lightweight finetuning of routers
(with other parameters frozen). Specifically, the regularization encourages the
routing weights of each sample to be close to those of its successful neighbors
(whose routing weights lead to correct answers) in a task embedding space.
Consequently, samples targeting similar tasks will share similar expert choices
across layers. Building such bindings between tasks and experts over different
samples is essential to achieve better generalization. Moreover, RoMA
demonstrates the advantage of unifying the task understanding (by embedding
models) with solution generation (by MoE LLMs). In experiments, we finetune
routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse
benchmarks and extensive comparisons with baselines show the substantial
improvement brought by RoMA.