Routing-Manifold-Alignment verbessert die Generalisierungsfähigkeit von Mixture-of-Experts-LLMs
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
November 10, 2025
papers.authors: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
papers.abstract
Sparse Mixture-of-Experts (MoE) haben sich in jüngsten großen Sprachmodellen weitgehend durchgesetzt, da sie die Modellkapazität effizient erweitern können, ohne die Inferenzkosten zu erhöhen. Allerdings zeigen Evaluationen auf einer Vielzahl von Downstream-Aufgaben eine konsistente Suboptimalität der Router in bestehenden MoE-LLMs auf, was zu einer erheblichen Leistungslücke (z.B. 10-20 % in der Genauigkeit) gegenüber dem optimalen Routing führt. In diesem Artikel zeigen wir, dass eine Abstimmung der Mannigfaltigkeit der Routing-Gewichte mit der der Aufgaben-Einbettung diese Lücke wirksam verringern und die Generalisierungsleistung von MoE-LLMs verbessern kann. Unsere Methode, "Routing Manifold Alignment (RoMA)", führt einen zusätzlichen Mannigfaltigkeits-Regularisierungsterm in das Post-Training-Ziel ein und erfordert nur ein leichtgewichtiges Fine-Tuning der Router (bei gefrorenen anderen Parametern). Konkret ermutigt die Regularisierung die Routing-Gewichte jeder Stichprobe, sich denen ihrer erfolgreichen Nachbarn (deren Routing-Gewichte zu korrekten Antworten führen) in einem Aufgaben-Einbettungsraum anzunähern. Folglich werden Stichproben mit ähnlichen Aufgaben ähnliche Expertenauswahlen über die Schichten hinweg teilen. Der Aufbau solcher Bindungen zwischen Aufgaben und Experten über verschiedene Stichproben hinweg ist entscheidend für eine bessere Generalisierung. Darüber hinaus demonstriert RoMA den Vorteil einer Vereinheitlichung des Aufgabenverständnisses (durch Einbettungsmodelle) mit der Lösungsgenerierung (durch MoE-LLMs). In Experimenten fine-tunen wir die Router in OLMoE, DeepSeekMoE und Qwen3-MoE mit RoMA. Evaluationen auf diversen Benchmarks und umfangreiche Vergleiche mit Baseline-Methoden zeigen die erheblichen Verbesserungen, die RoMA bringt.
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large
language models since it can efficiently scale up the model capability without
increasing the inference cost. However, evaluations on broad downstream tasks
reveal a consistent suboptimality of the routers in existing MoE LLMs, which
results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal
routing. In this paper, we show that aligning the manifold of routing weights
with that of task embedding can effectively reduce the gap and improve MoE
LLMs' generalization performance. Our method, "Routing Manifold Alignment
(RoMA)", introduces an additional manifold regularization term in the
post-training objective and only requires lightweight finetuning of routers
(with other parameters frozen). Specifically, the regularization encourages the
routing weights of each sample to be close to those of its successful neighbors
(whose routing weights lead to correct answers) in a task embedding space.
Consequently, samples targeting similar tasks will share similar expert choices
across layers. Building such bindings between tasks and experts over different
samples is essential to achieve better generalization. Moreover, RoMA
demonstrates the advantage of unifying the task understanding (by embedding
models) with solution generation (by MoE LLMs). In experiments, we finetune
routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse
benchmarks and extensive comparisons with baselines show the substantial
improvement brought by RoMA.