Enrutamiento Multilingüe en Mezcla de Expertos
Multilingual Routing in Mixture-of-Experts
October 6, 2025
Autores: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng
cs.AI
Resumen
Las arquitecturas Mixture-of-Experts (MoE) se han convertido en clave para escalar los LLM modernos, sin embargo, se comprende poco sobre cómo sus dinámicas de enrutamiento disperso responden a datos multilingües. En este trabajo, analizamos los patrones de enrutamiento de expertos utilizando conjuntos de datos multilingües paralelos y presentamos fenómenos altamente interpretables capa por capa. Descubrimos que los modelos MoE enrutan tokens de manera específica por idioma en las capas iniciales y finales del decodificador, pero muestran una alineación significativa de enrutamiento entre idiomas en las capas intermedias, reflejando tendencias de compartición de parámetros observadas en LLM densos. En particular, revelamos una correlación clara y fuerte entre el rendimiento del modelo en un idioma dado y cuán similares son sus tokens enrutados al inglés en estas capas. Más allá de la correlación, exploramos intervenciones en tiempo de inferencia que inducen una mayor alineación de enrutamiento entre idiomas. Introducimos un método que guía el enrutador promoviendo expertos de tareas en capas intermedias frecuentemente activados en inglés, y este aumenta exitosamente el rendimiento multilingüe. Estas ganancias del 1-2% son notablemente consistentes en dos tareas de evaluación, tres modelos y más de 15 idiomas, especialmente considerando que estas intervenciones simples anulan los enrutadores de LLM de última generación ampliamente entrenados. En comparación, las intervenciones fuera de las capas intermedias o dirigidas a expertos especializados en multilingüismo solo resultan en una degradación del rendimiento. En conjunto, presentamos numerosos hallazgos que explican cómo los MoE procesan texto no inglés y demostramos que la generalización está limitada por la capacidad del modelo para aprovechar expertos universales en todos los idiomas.
English
Mixture-of-Experts (MoE) architectures have become the key to scaling modern
LLMs, yet little is understood about how their sparse routing dynamics respond
to multilingual data. In this work, we analyze expert routing patterns using
parallel multilingual datasets and present highly interpretable layer-wise
phenomena. We find that MoE models route tokens in language-specific ways in
the early and late decoder layers but exhibit significant cross-lingual routing
alignment in middle layers, mirroring parameter-sharing trends observed in
dense LLMs. In particular, we reveal a clear, strong correlation between a
model's performance in a given language and how similarly its tokens are routed
to English in these layers. Extending beyond correlation, we explore
inference-time interventions that induce higher cross-lingual routing
alignment. We introduce a method that steers the router by promoting
middle-layer task experts frequently activated in English, and it successfully
increases multilingual performance. These 1-2% gains are remarkably consistent
across two evaluation tasks, three models, and 15+ languages, especially given
that these simple interventions override routers of extensively trained,
state-of-the-art LLMs. In comparison, interventions outside of the middle
layers or targeting multilingual-specialized experts only yield performance
degradation. Altogether, we present numerous findings that explain how MoEs
process non-English text and demonstrate that generalization is limited by the
model's ability to leverage language-universal experts in all languages.