Roteamento Multilíngue em Mistura de Especialistas
Multilingual Routing in Mixture-of-Experts
October 6, 2025
Autores: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng
cs.AI
Resumo
As arquiteturas Mixture-of-Experts (MoE) tornaram-se essenciais para a escalabilidade dos LLMs modernos, mas pouco se compreende sobre como suas dinâmicas de roteamento esparso respondem a dados multilingues. Neste trabalho, analisamos padrões de roteamento de especialistas utilizando conjuntos de dados multilingues paralelos e apresentamos fenômenos altamente interpretáveis em nível de camada. Descobrimos que os modelos MoE roteiam tokens de maneira específica ao idioma nas camadas iniciais e finais do decodificador, mas exibem um alinhamento significativo de roteamento entre idiomas nas camadas intermediárias, refletindo tendências de compartilhamento de parâmetros observadas em LLMs densos. Em particular, revelamos uma correlação clara e forte entre o desempenho do modelo em um determinado idioma e o quão similarmente seus tokens são roteados em relação ao inglês nessas camadas. Indo além da correlação, exploramos intervenções em tempo de inferência que induzem um maior alinhamento de roteamento entre idiomas. Introduzimos um método que direciona o roteador promovendo especialistas de tarefas nas camadas intermediárias frequentemente ativados em inglês, e ele aumenta com sucesso o desempenho multilingue. Esses ganhos de 1-2% são notavelmente consistentes em duas tarefas de avaliação, três modelos e mais de 15 idiomas, especialmente considerando que essas intervenções simples substituem roteadores de LLMs de última geração extensivamente treinados. Em comparação, intervenções fora das camadas intermediárias ou que visam especialistas multilingues específicos resultam apenas em degradação de desempenho. No geral, apresentamos diversas descobertas que explicam como os MoEs processam textos não ingleses e demonstramos que a generalização é limitada pela capacidade do modelo de aproveitar especialistas universais a todos os idiomas.
English
Mixture-of-Experts (MoE) architectures have become the key to scaling modern
LLMs, yet little is understood about how their sparse routing dynamics respond
to multilingual data. In this work, we analyze expert routing patterns using
parallel multilingual datasets and present highly interpretable layer-wise
phenomena. We find that MoE models route tokens in language-specific ways in
the early and late decoder layers but exhibit significant cross-lingual routing
alignment in middle layers, mirroring parameter-sharing trends observed in
dense LLMs. In particular, we reveal a clear, strong correlation between a
model's performance in a given language and how similarly its tokens are routed
to English in these layers. Extending beyond correlation, we explore
inference-time interventions that induce higher cross-lingual routing
alignment. We introduce a method that steers the router by promoting
middle-layer task experts frequently activated in English, and it successfully
increases multilingual performance. These 1-2% gains are remarkably consistent
across two evaluation tasks, three models, and 15+ languages, especially given
that these simple interventions override routers of extensively trained,
state-of-the-art LLMs. In comparison, interventions outside of the middle
layers or targeting multilingual-specialized experts only yield performance
degradation. Altogether, we present numerous findings that explain how MoEs
process non-English text and demonstrate that generalization is limited by the
model's ability to leverage language-universal experts in all languages.