Meertalige Routering in Mixture-of-Experts

Samenvatting

Mixture-of-Experts (MoE)-architecturen zijn de sleutel geworden tot het schalen van moderne grote taalmodelen (LLMs), maar er is weinig bekend over hoe hun dynamiek van sparse routing reageert op meertalige data. In dit werk analyseren we expert-routingpatronen met behulp van parallelle meertalige datasets en presenteren we zeer interpreteerbare laaggewijze fenomenen. We ontdekken dat MoE-modellen tokens op taal-specifieke manieren routeren in de vroege en late decoderlagen, maar significante cross-linguale routing-alignment vertonen in de middelste lagen, wat de trends in parameterdeling weerspiegelt die worden waargenomen in dense LLMs. In het bijzonder onthullen we een duidelijke, sterke correlatie tussen de prestaties van een model in een bepaalde taal en hoe vergelijkbaar de tokens worden gerouteerd naar het Engels in deze lagen. Voorbij correlatie verkennen we interventies tijdens inferentie die een hogere cross-linguale routing-alignment induceren. We introduceren een methode die de router stuurt door middel-laag taakexperts te bevorderen die vaak worden geactiveerd in het Engels, en deze verhoogt succesvol de meertalige prestaties. Deze winst van 1-2% is opmerkelijk consistent over twee evaluatietaken, drie modellen en 15+ talen, vooral gezien het feit dat deze eenvoudige interventies routers van uitgebreid getrainde, state-of-the-art LLMs overrulen. In vergelijking leveren interventies buiten de middelste lagen of gericht op meertalig-gespecialiseerde experts alleen prestatievermindering op. Al met al presenteren we talrijke bevindingen die verklaren hoe MoEs niet-Engelse tekst verwerken en tonen we aan dat generalisatie wordt beperkt door het vermogen van het model om taal-universele experts in alle talen te benutten.

English

Mixture-of-Experts (MoE) architectures have become the key to scaling modern LLMs, yet little is understood about how their sparse routing dynamics respond to multilingual data. In this work, we analyze expert routing patterns using parallel multilingual datasets and present highly interpretable layer-wise phenomena. We find that MoE models route tokens in language-specific ways in the early and late decoder layers but exhibit significant cross-lingual routing alignment in middle layers, mirroring parameter-sharing trends observed in dense LLMs. In particular, we reveal a clear, strong correlation between a model's performance in a given language and how similarly its tokens are routed to English in these layers. Extending beyond correlation, we explore inference-time interventions that induce higher cross-lingual routing alignment. We introduce a method that steers the router by promoting middle-layer task experts frequently activated in English, and it successfully increases multilingual performance. These 1-2% gains are remarkably consistent across two evaluation tasks, three models, and 15+ languages, especially given that these simple interventions override routers of extensively trained, state-of-the-art LLMs. In comparison, interventions outside of the middle layers or targeting multilingual-specialized experts only yield performance degradation. Altogether, we present numerous findings that explain how MoEs process non-English text and demonstrate that generalization is limited by the model's ability to leverage language-universal experts in all languages.

Meertalige Routering in Mixture-of-Experts

Multilingual Routing in Mixture-of-Experts

Samenvatting

Support