Meertalige Routering in Mixture-of-Experts
Multilingual Routing in Mixture-of-Experts
October 6, 2025
Auteurs: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng
cs.AI
Samenvatting
Mixture-of-Experts (MoE)-architecturen zijn de sleutel geworden tot het schalen van moderne grote taalmodelen (LLMs), maar er is weinig bekend over hoe hun dynamiek van sparse routing reageert op meertalige data. In dit werk analyseren we expert-routingpatronen met behulp van parallelle meertalige datasets en presenteren we zeer interpreteerbare laaggewijze fenomenen. We ontdekken dat MoE-modellen tokens op taal-specifieke manieren routeren in de vroege en late decoderlagen, maar significante cross-linguale routing-alignment vertonen in de middelste lagen, wat de trends in parameterdeling weerspiegelt die worden waargenomen in dense LLMs. In het bijzonder onthullen we een duidelijke, sterke correlatie tussen de prestaties van een model in een bepaalde taal en hoe vergelijkbaar de tokens worden gerouteerd naar het Engels in deze lagen. Voorbij correlatie verkennen we interventies tijdens inferentie die een hogere cross-linguale routing-alignment induceren. We introduceren een methode die de router stuurt door middel-laag taakexperts te bevorderen die vaak worden geactiveerd in het Engels, en deze verhoogt succesvol de meertalige prestaties. Deze winst van 1-2% is opmerkelijk consistent over twee evaluatietaken, drie modellen en 15+ talen, vooral gezien het feit dat deze eenvoudige interventies routers van uitgebreid getrainde, state-of-the-art LLMs overrulen. In vergelijking leveren interventies buiten de middelste lagen of gericht op meertalig-gespecialiseerde experts alleen prestatievermindering op. Al met al presenteren we talrijke bevindingen die verklaren hoe MoEs niet-Engelse tekst verwerken en tonen we aan dat generalisatie wordt beperkt door het vermogen van het model om taal-universele experts in alle talen te benutten.
English
Mixture-of-Experts (MoE) architectures have become the key to scaling modern
LLMs, yet little is understood about how their sparse routing dynamics respond
to multilingual data. In this work, we analyze expert routing patterns using
parallel multilingual datasets and present highly interpretable layer-wise
phenomena. We find that MoE models route tokens in language-specific ways in
the early and late decoder layers but exhibit significant cross-lingual routing
alignment in middle layers, mirroring parameter-sharing trends observed in
dense LLMs. In particular, we reveal a clear, strong correlation between a
model's performance in a given language and how similarly its tokens are routed
to English in these layers. Extending beyond correlation, we explore
inference-time interventions that induce higher cross-lingual routing
alignment. We introduce a method that steers the router by promoting
middle-layer task experts frequently activated in English, and it successfully
increases multilingual performance. These 1-2% gains are remarkably consistent
across two evaluation tasks, three models, and 15+ languages, especially given
that these simple interventions override routers of extensively trained,
state-of-the-art LLMs. In comparison, interventions outside of the middle
layers or targeting multilingual-specialized experts only yield performance
degradation. Altogether, we present numerous findings that explain how MoEs
process non-English text and demonstrate that generalization is limited by the
model's ability to leverage language-universal experts in all languages.