O Alinhamento de Variedades de Roteamento Melhora a Generalização de LLMs de Mistura de Especialistas

Resumo

As Misturas Esparsas de Especialistas (MoE) têm sido amplamente adotadas em modelos de linguagem grandes recentes, uma vez que permitem escalar eficientemente a capacidade do modelo sem aumentar o custo de inferência. No entanto, avaliações em diversas tarefas de *downstream* revelam uma subotimalidade consistente dos roteadores nos MoE LLMs existentes, o que resulta numa lacuna de desempenho significativa (por exemplo, 10-20% em precisão) em relação ao roteamento ótimo. Neste artigo, demonstramos que alinhar a variedade (*manifold*) dos pesos de roteamento com a variedade da incorporação (*embedding*) de tarefas pode efetivamente reduzir essa lacuna e melhorar o desempenho de generalização dos MoE LLMs. O nosso método, "Alinhamento da Variedade de Roteamento (RoMA)", introduz um termo de regularização de variedade adicional no objetivo de pós-treinamento e requer apenas um ajuste fino (*finetuning*) leve dos roteadores (com os outros parâmetros congelados). Especificamente, a regularização incentiva que os pesos de roteamento de cada amostra se aproximem dos dos seus vizinhos bem-sucedidos (cujos pesos de roteamento conduzem a respostas corretas) num espaço de incorporação de tarefas. Consequentemente, amostras que visam tarefas semelhantes partilharão escolhas de especialistas semelhantes ao longo das camadas. Construir tais ligações entre tarefas e especialistas em diferentes amostras é essencial para alcançar uma melhor generalização. Além disso, o RoMA demonstra a vantagem de unificar a compreensão da tarefa (através de modelos de incorporação) com a geração de soluções (através dos MoE LLMs). Nas experiências, ajustamos os roteadores no OLMoE, DeepSeekMoE e Qwen3-MoE usando o RoMA. Avaliações em diversos *benchmarks* e comparações extensivas com linhas de base (*baselines*) mostram a melhoria substancial trazida pelo RoMA.

English

Sparse Mixture-of-Experts (MoE) have been widely adopted in recent large language models since it can efficiently scale up the model capability without increasing the inference cost. However, evaluations on broad downstream tasks reveal a consistent suboptimality of the routers in existing MoE LLMs, which results in a severe performance gap (e.g., 10-20% in accuracy) to the optimal routing. In this paper, we show that aligning the manifold of routing weights with that of task embedding can effectively reduce the gap and improve MoE LLMs' generalization performance. Our method, "Routing Manifold Alignment (RoMA)", introduces an additional manifold regularization term in the post-training objective and only requires lightweight finetuning of routers (with other parameters frozen). Specifically, the regularization encourages the routing weights of each sample to be close to those of its successful neighbors (whose routing weights lead to correct answers) in a task embedding space. Consequently, samples targeting similar tasks will share similar expert choices across layers. Building such bindings between tasks and experts over different samples is essential to achieve better generalization. Moreover, RoMA demonstrates the advantage of unifying the task understanding (by embedding models) with solution generation (by MoE LLMs). In experiments, we finetune routers in OLMoE, DeepSeekMoE, and Qwen3-MoE using RoMA. Evaluations on diverse benchmarks and extensive comparisons with baselines show the substantial improvement brought by RoMA.

O Alinhamento de Variedades de Roteamento Melhora a Generalização de LLMs de Mistura de Especialistas

Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

Resumo

Support