ChatPaper.aiChatPaper

Иллюзия специализации: раскрытие доменно-инвариантного «постоянного комитета» в моделях смеси экспертов

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

January 6, 2026
Авторы: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu
cs.AI

Аннотация

Модели типа «смесь экспертов» широко принято считать достигшими предметной специализации за счет разреженного маршрутизирования. В данной работе мы ставим это предположение под сомнение, вводя COMMITTEEAUDIT — постфактумный фреймворк, который анализирует поведение маршрутизации на уровне групп экспертов, а не отдельных экземпляров. На примере трех репрезентативных моделей и бенчмарка MMLU мы выявляем доменно-инвариантный Постоянный комитет. Это компактная коалиция маршрутизируемых экспертов, которая стабильно аккумулирует большую часть маршрутизируемой массы across доменами, слоями и бюджетами маршрутизации, даже в архитектурах, уже включающих общих экспертов. Качественный анализ дополнительно показывает, что Постоянные комитеты закрепляют структуру и синтаксис рассуждений, тогда как периферийные эксперты обрабатывают предметно-специфичные знания. Эти находки выявляют сильную структурную склонность к централизованным вычислениям, что позволяет предположить, что специализация в моделях «смеси экспертов» гораздо менее распространена, чем принято считать. Эта врожденная склонность также указывает на то, что современные целевые функции обучения, такие как потери балансировки нагрузки, обеспечивающие равномерное использование экспертов, могут работать против естественного пути оптимизации модели, тем самым ограничивая эффективность обучения и производительность.
English
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
PDF91January 10, 2026