Routage multilingue dans les modèles de mélange d'experts
Multilingual Routing in Mixture-of-Experts
October 6, 2025
papers.authors: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng
cs.AI
papers.abstract
Les architectures Mixture-of-Experts (MoE) sont devenues essentielles pour la mise à l'échelle des grands modèles de langage (LLM) modernes, mais on comprend encore peu comment leur dynamique de routage parcimonieux réagit aux données multilingues. Dans ce travail, nous analysons les schémas de routage des experts à l'aide de jeux de données multilingues parallèles et présentons des phénomènes hautement interprétables, couche par couche. Nous constatons que les modèles MoE routent les tokens de manière spécifique à la langue dans les premières et dernières couches du décodeur, mais montrent un alignement significatif du routage interlingue dans les couches intermédiaires, reflétant les tendances de partage de paramètres observées dans les LLM denses. En particulier, nous révélons une corrélation claire et forte entre la performance d'un modèle dans une langue donnée et la similarité avec laquelle ses tokens sont routés vers l'anglais dans ces couches. Au-delà de la corrélation, nous explorons des interventions au moment de l'inférence qui induisent un alignement accru du routage interlingue. Nous introduisons une méthode qui oriente le routeur en favorisant les experts de tâches des couches intermédiaires fréquemment activés en anglais, et elle augmente avec succès les performances multilingues. Ces gains de 1 à 2 % sont remarquablement cohérents à travers deux tâches d'évaluation, trois modèles et plus de 15 langues, surtout étant donné que ces interventions simples surchargent les routeurs de LLM de pointe, longuement entraînés. En comparaison, les interventions en dehors des couches intermédiaires ou ciblant des experts spécialisés multilingues ne produisent qu'une dégradation des performances. Au total, nous présentons de nombreuses découvertes qui expliquent comment les MoE traitent le texte non-anglais et démontrons que la généralisation est limitée par la capacité du modèle à exploiter des experts universels à toutes les langues.
English
Mixture-of-Experts (MoE) architectures have become the key to scaling modern
LLMs, yet little is understood about how their sparse routing dynamics respond
to multilingual data. In this work, we analyze expert routing patterns using
parallel multilingual datasets and present highly interpretable layer-wise
phenomena. We find that MoE models route tokens in language-specific ways in
the early and late decoder layers but exhibit significant cross-lingual routing
alignment in middle layers, mirroring parameter-sharing trends observed in
dense LLMs. In particular, we reveal a clear, strong correlation between a
model's performance in a given language and how similarly its tokens are routed
to English in these layers. Extending beyond correlation, we explore
inference-time interventions that induce higher cross-lingual routing
alignment. We introduce a method that steers the router by promoting
middle-layer task experts frequently activated in English, and it successfully
increases multilingual performance. These 1-2% gains are remarkably consistent
across two evaluation tasks, three models, and 15+ languages, especially given
that these simple interventions override routers of extensively trained,
state-of-the-art LLMs. In comparison, interventions outside of the middle
layers or targeting multilingual-specialized experts only yield performance
degradation. Altogether, we present numerous findings that explain how MoEs
process non-English text and demonstrate that generalization is limited by the
model's ability to leverage language-universal experts in all languages.