ルーティング多様体アライメントによるMixture-of-Experts大規模言語モデルの汎化性能向上
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
November 10, 2025
著者: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
要旨
スパース混合エキスパート(MoE)は、推論コストを増加させることなくモデル能力を効率的に拡張できるため、近年の大規模言語モデルで広く採用されている。しかし、多様な下流タスクでの評価により、既存のMoE LLMのルーターには一貫した最適性の不足が認められ、最適ルーティングとの間に深刻な性能差(精度で10-20%など)が生じている。本論文では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させることで、この差を効果的に縮め、MoE LLMの汎化性能を向上できることを示す。我々の手法「Routing Manifold Alignment(RoMA)」は、学習後調整の目的関数に追加の多様体正則化項を導入し、ルーターのみの軽量なファインチューニング(他パラメータは凍結)のみを必要とする。具体的には、この正則化により、各サンプルのルーティング重みが、タスク埋め込み空間内での成功近傍点(ルーティング重みが正解を導くサンプル)のルーティング重みに近づくよう促す。その結果、類似したタスクを対象とするサンプルは、層間で類似したエキスパート選択を共有するようになる。異なるサンプル間でタスクとエキスパートの結びつきを構築することは、より優れた汎化性能を達成するために不可欠である。さらに、RoMAはタスク理解(埋め込みモデルによる)と解生成(MoE LLMによる)を統合する利点を示している。実験では、OLMoE、DeepSeekMoE、Qwen3-MoEのルーターをRoMAでファインチューニングした。多様なベンチマークによる評価とベースラインとの広範な比較により、RoMAがもたらす大幅な改善が確認された。
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large
language models since it can efficiently scale up the model capability without
increasing the inference cost. However, evaluations on broad downstream tasks
reveal a consistent suboptimality of the routers in existing MoE LLMs, which
results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal
routing. In this paper, we show that aligning the manifold of routing weights
with that of task embedding can effectively reduce the gap and improve MoE
LLMs' generalization performance. Our method, "Routing Manifold Alignment
(RoMA)", introduces an additional manifold regularization term in the
post-training objective and only requires lightweight finetuning of routers
(with other parameters frozen). Specifically, the regularization encourages the
routing weights of each sample to be close to those of its successful neighbors
(whose routing weights lead to correct answers) in a task embedding space.
Consequently, samples targeting similar tasks will share similar expert choices
across layers. Building such bindings between tasks and experts over different
samples is essential to achieve better generalization. Moreover, RoMA
demonstrates the advantage of unifying the task understanding (by embedding
models) with solution generation (by MoE LLMs). In experiments, we finetune
routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse
benchmarks and extensive comparisons with baselines show the substantial
improvement brought by RoMA.