Выравнивание многообразий маршрутизации улучшает обобщающую способность языковых моделей со смесью экспертов
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs
November 10, 2025
Авторы: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Аннотация
Разреженные смеси экспертов (MoE) получили широкое распространение в современных больших языковых моделях, поскольку они позволяют эффективно масштабировать возможности модели без увеличения стоимости вывода. Однако оценка на широком спектре прикладных задач выявляет устойчивую субоптимальность маршрутизаторов в существующих MoE LLM, что приводит к значительному разрыву в производительности (например, 10-20% по точности) по сравнению с оптимальной маршрутизацией. В данной статье мы показываем, что выравнивание многообразия весов маршрутизации с многообразием эмбеддингов задач позволяет эффективно сократить этот разрыв и улучшить обобщающую способность MoE LLM. Наш метод, «Выравнивание многообразия маршрутизации» (RoMA), вводит дополнительный член регуляризации многообразия в целевую функцию дообучения и требует лишь легкой тонкой настройки маршрутизаторов (при замороженных остальных параметрах). В частности, регуляризация побуждает веса маршрутизации каждого примера быть близкими к весам его успешных соседей (чьи веса маршрутизации приводят к правильным ответам) в пространстве эмбеддингов задач. Как следствие, примеры, нацеленные на схожие задачи, будут разделять схожий выбор экспертов across layers. Построение таких связей между задачами и экспертами на различных примерах необходимо для достижения лучшего обобщения. Более того, RoMA демонстрирует преимущество объединения понимания задачи (посредством моделей эмбеддинга) с генерацией решения (посредством MoE LLM). В экспериментах мы дообучаем маршрутизаторы в OLMoE, DeepSeekMoE и Qwen3-MoE с помощью RoMA. Оценки на различных бенчмарках и обширные сравнения с базовыми методами показывают существенное улучшение, достигаемое благодаря RoMA.
English
Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large
language models since it can efficiently scale up the model capability without
increasing the inference cost. However, evaluations on broad downstream tasks
reveal a consistent suboptimality of the routers in existing MoE LLMs, which
results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal
routing. In this paper, we show that aligning the manifold of routing weights
with that of task embedding can effectively reduce the gap and improve MoE
LLMs' generalization performance. Our method, "Routing Manifold Alignment
(RoMA)", introduces an additional manifold regularization term in the
post-training objective and only requires lightweight finetuning of routers
(with other parameters frozen). Specifically, the regularization encourages the
routing weights of each sample to be close to those of its successful neighbors
(whose routing weights lead to correct answers) in a task embedding space.
Consequently, samples targeting similar tasks will share similar expert choices
across layers. Building such bindings between tasks and experts over different
samples is essential to achieve better generalization. Moreover, RoMA
demonstrates the advantage of unifying the task understanding (by embedding
models) with solution generation (by MoE LLMs). In experiments, we finetune
routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse
benchmarks and extensive comparisons with baselines show the substantial
improvement brought by RoMA.