Instradamento Multilingue nei Modelli Mixture-of-Experts

Abstract

Le architetture Mixture-of-Experts (MoE) sono diventate fondamentali per il ridimensionamento dei moderni LLM, eppure si sa poco su come le loro dinamiche di routing sparso rispondano ai dati multilingue. In questo lavoro, analizziamo i modelli di routing degli esperti utilizzando dataset multilingue paralleli e presentiamo fenomeni altamente interpretabili a livello di strato. Scopriamo che i modelli MoE instradano i token in modo specifico per la lingua negli strati iniziali e finali del decoder, ma mostrano un allineamento significativo del routing cross-linguale negli strati intermedi, riflettendo le tendenze di condivisione dei parametri osservate nei LLM densi. In particolare, riveliamo una chiara e forte correlazione tra le prestazioni del modello in una determinata lingua e quanto simili siano i suoi token instradati rispetto all'inglese in questi strati. Andando oltre la correlazione, esploriamo interventi al momento dell'inferenza che inducono un maggiore allineamento del routing cross-linguale. Introduciamo un metodo che guida il router promuovendo esperti di compiti negli strati intermedi frequentemente attivati in inglese, e questo aumenta con successo le prestazioni multilingue. Questi guadagni dell'1-2% sono notevolmente consistenti in due compiti di valutazione, tre modelli e oltre 15 lingue, soprattutto considerando che questi semplici interventi sovrascrivono i router di LLM all'avanguardia ampiamente addestrati. In confronto, interventi al di fuori degli strati intermedi o mirati a esperti specializzati nel multilingue portano solo a un degrado delle prestazioni. Nel complesso, presentiamo numerosi risultati che spiegano come i MoE elaborano il testo non in inglese e dimostriamo che la generalizzazione è limitata dalla capacità del modello di sfruttare esperti universali per tutte le lingue.

English

Mixture-of-Experts (MoE) architectures have become the key to scaling modern LLMs, yet little is understood about how their sparse routing dynamics respond to multilingual data. In this work, we analyze expert routing patterns using parallel multilingual datasets and present highly interpretable layer-wise phenomena. We find that MoE models route tokens in language-specific ways in the early and late decoder layers but exhibit significant cross-lingual routing alignment in middle layers, mirroring parameter-sharing trends observed in dense LLMs. In particular, we reveal a clear, strong correlation between a model's performance in a given language and how similarly its tokens are routed to English in these layers. Extending beyond correlation, we explore inference-time interventions that induce higher cross-lingual routing alignment. We introduce a method that steers the router by promoting middle-layer task experts frequently activated in English, and it successfully increases multilingual performance. These 1-2% gains are remarkably consistent across two evaluation tasks, three models, and 15+ languages, especially given that these simple interventions override routers of extensively trained, state-of-the-art LLMs. In comparison, interventions outside of the middle layers or targeting multilingual-specialized experts only yield performance degradation. Altogether, we present numerous findings that explain how MoEs process non-English text and demonstrate that generalization is limited by the model's ability to leverage language-universal experts in all languages.

Instradamento Multilingue nei Modelli Mixture-of-Experts

Multilingual Routing in Mixture-of-Experts

Abstract

Support