Mehrsprachiges Routing in Mixture-of-Experts

papers.abstract

Mixture-of-Experts (MoE)-Architekturen sind der Schlüssel zur Skalierung moderner LLMs (Large Language Models), doch es ist wenig darüber bekannt, wie ihre spärlichen Routing-Dynamiken auf mehrsprachige Daten reagieren. In dieser Arbeit analysieren wir Experten-Routing-Muster mithilfe paralleler mehrsprachiger Datensätze und präsentieren hochgradig interpretierbare, schichtweise Phänomene. Wir stellen fest, dass MoE-Modelle Tokens in den frühen und späten Decoder-Schichten sprachspezifisch routen, jedoch in den mittleren Schichten eine signifikante cross-linguale Routing-Ausrichtung zeigen, was den Parameter-Sharing-Trends entspricht, die in dichten LLMs beobachtet werden. Insbesondere offenbaren wir eine klare, starke Korrelation zwischen der Leistung eines Modells in einer bestimmten Sprache und der Ähnlichkeit, mit der seine Tokens in diesen Schichten im Vergleich zu Englisch geroutet werden. Über Korrelationen hinaus untersuchen wir Interventionen zur Inferenzzeit, die eine höhere cross-linguale Routing-Ausrichtung bewirken. Wir führen eine Methode ein, die den Router steuert, indem sie Experten in den mittleren Schichten fördert, die häufig für Englisch aktiviert werden, und sie steigert erfolgreich die mehrsprachige Leistung. Diese Gewinne von 1–2 % sind bemerkenswert konsistent über zwei Evaluierungsaufgaben, drei Modelle und 15+ Sprachen hinweg, insbesondere angesichts der Tatsache, dass diese einfachen Interventionen die Router von umfangreich trainierten, state-of-the-art LLMs überschreiben. Im Vergleich dazu führen Interventionen außerhalb der mittleren Schichten oder solche, die mehrsprachig spezialisierte Experten anzielen, nur zu Leistungseinbußen. Insgesamt präsentieren wir zahlreiche Erkenntnisse, die erklären, wie MoEs nicht-englische Texte verarbeiten, und zeigen, dass die Generalisierung durch die Fähigkeit des Modells begrenzt ist, sprachuniverselle Experten in allen Sprachen zu nutzen.

English

Mixture-of-Experts (MoE) architectures have become the key to scaling modern LLMs, yet little is understood about how their sparse routing dynamics respond to multilingual data. In this work, we analyze expert routing patterns using parallel multilingual datasets and present highly interpretable layer-wise phenomena. We find that MoE models route tokens in language-specific ways in the early and late decoder layers but exhibit significant cross-lingual routing alignment in middle layers, mirroring parameter-sharing trends observed in dense LLMs. In particular, we reveal a clear, strong correlation between a model's performance in a given language and how similarly its tokens are routed to English in these layers. Extending beyond correlation, we explore inference-time interventions that induce higher cross-lingual routing alignment. We introduce a method that steers the router by promoting middle-layer task experts frequently activated in English, and it successfully increases multilingual performance. These 1-2% gains are remarkably consistent across two evaluation tasks, three models, and 15+ languages, especially given that these simple interventions override routers of extensively trained, state-of-the-art LLMs. In comparison, interventions outside of the middle layers or targeting multilingual-specialized experts only yield performance degradation. Altogether, we present numerous findings that explain how MoEs process non-English text and demonstrate that generalization is limited by the model's ability to leverage language-universal experts in all languages.

Mehrsprachiges Routing in Mixture-of-Experts

Multilingual Routing in Mixture-of-Experts

papers.abstract

Support