ChatPaper.aiChatPaper

La Ilusión de la Especialización: Revelando el "Comité Permanente" Invariante al Dominio en Modelos Mixture-of-Experts

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

January 6, 2026
Autores: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu
cs.AI

Resumen

Se asume ampliamente que los modelos Mixture of Experts logran especialización de dominio mediante el enrutamiento disperso. En este trabajo, cuestionamos esta suposición al introducir COMMITTEEAUDIT, un marco *post hoc* que analiza el comportamiento de enrutamiento a nivel de grupos de expertos en lugar de expertos individuales. En tres modelos representativos y el benchmark MMLU, descubrimos un Comité Permanente invariante al dominio. Esta es una coalición compacta de expertos enrutados que captura consistentemente la mayoría de la masa de enrutamiento a través de dominios, capas y presupuestos de enrutamiento, incluso cuando las arquitecturas ya incluyen expertos compartidos. Un análisis cualitativo muestra además que los Comités Permanentes anclan la estructura de razonamiento y la sintaxis, mientras que los expertos periféricos manejan el conocimiento específico del dominio. Estos hallazgos revelan un fuerte sesgo estructural hacia la computación centralizada, lo que sugiere que la especialización en los modelos Mixture of Experts es mucho menos generalizada de lo que comúnmente se cree. Este sesgo inherente también indica que los objetivos de entrenamiento actuales, como las pérdidas de equilibrio de carga que imponen una utilización uniforme de los expertos, podrían estar operando en contra de la ruta natural de optimización del modelo, limitando así la eficiencia del entrenamiento y el rendimiento.
English
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
PDF91January 10, 2026