ChatPaper.aiChatPaper

Многоязычная маршрутизация в смеси экспертов

Multilingual Routing in Mixture-of-Experts

October 6, 2025
Авторы: Lucas Bandarkar, Chenyuan Yang, Mohsen Fayyaz, Junlin Hu, Nanyun Peng
cs.AI

Аннотация

Архитектуры Mixture-of-Experts (MoE) стали ключевым элементом масштабирования современных больших языковых моделей (LLM), однако мало что известно о том, как их разреженная динамика маршрутизации реагирует на многоязычные данные. В данной работе мы анализируем паттерны маршрутизации экспертов с использованием параллельных многоязычных наборов данных и представляем высоко интерпретируемые явления на уровне слоев. Мы обнаруживаем, что модели MoE маршрутизируют токены специфическим для языка образом в ранних и поздних слоях декодера, но демонстрируют значительное кросс-лингвальное выравнивание маршрутизации в средних слоях, что отражает тенденции совместного использования параметров, наблюдаемые в плотных LLM. В частности, мы выявляем четкую и сильную корреляцию между производительностью модели на данном языке и тем, насколько похоже маршрутизируются его токены на английский в этих слоях. Выходя за рамки корреляции, мы исследуем вмешательства на этапе вывода, которые способствуют более высокому кросс-лингвальному выравниванию маршрутизации. Мы представляем метод, который направляет маршрутизатор, продвигая экспертов средних слоев, часто активируемых на английском языке, и он успешно повышает многоязычную производительность. Эти улучшения на 1-2% остаются удивительно стабильными для двух задач оценки, трех моделей и более 15 языков, особенно учитывая, что эти простые вмешательства переопределяют маршрутизаторы тщательно обученных современных LLM. В сравнении, вмешательства за пределами средних слоев или направленные на специализированных многоязычных экспертов приводят только к снижению производительности. В целом, мы представляем множество выводов, объясняющих, как MoE обрабатывают неанглийский текст, и демонстрируем, что обобщение ограничено способностью модели использовать универсальных для всех языков экспертов.
English
Mixture-of-Experts (MoE) architectures have become the key to scaling modern LLMs, yet little is understood about how their sparse routing dynamics respond to multilingual data. In this work, we analyze expert routing patterns using parallel multilingual datasets and present highly interpretable layer-wise phenomena. We find that MoE models route tokens in language-specific ways in the early and late decoder layers but exhibit significant cross-lingual routing alignment in middle layers, mirroring parameter-sharing trends observed in dense LLMs. In particular, we reveal a clear, strong correlation between a model's performance in a given language and how similarly its tokens are routed to English in these layers. Extending beyond correlation, we explore inference-time interventions that induce higher cross-lingual routing alignment. We introduce a method that steers the router by promoting middle-layer task experts frequently activated in English, and it successfully increases multilingual performance. These 1-2% gains are remarkably consistent across two evaluation tasks, three models, and 15+ languages, especially given that these simple interventions override routers of extensively trained, state-of-the-art LLMs. In comparison, interventions outside of the middle layers or targeting multilingual-specialized experts only yield performance degradation. Altogether, we present numerous findings that explain how MoEs process non-English text and demonstrate that generalization is limited by the model's ability to leverage language-universal experts in all languages.
PDF22October 8, 2025