A Ilusão da Especialização: Revelando o "Comitê Permanente" Invariante ao Domínio em Modelos Mixture-of-Experts

Resumo

Os modelos de Mistura de Especialistas são amplamente assumidos como capazes de alcançar especialização de domínio por meio de roteamento esparso. Neste trabalho, questionamos essa premissa ao introduzir o COMMITTEEAUDIT, uma estrutura *post hoc* que analisa o comportamento de roteamento no nível de grupos de especialistas, e não de especialistas individuais. Em três modelos representativos e no benchmark MMLU, descobrimos um Comitê Permanente invariante ao domínio. Trata-se de uma coalizão compacta de especialistas roteados que consistentemente captura a maior parte da massa de roteamento entre domínios, camadas e orçamentos de roteamento, mesmo quando as arquiteturas já incluem especialistas compartilhados. Análises qualitativas mostram ainda que os Comitês Permanentes ancoram a estrutura e a sintaxe do raciocínio, enquanto especialistas periféricos lidam com conhecimentos específicos do domínio. Essas descobertas revelam um forte viés estrutural em direção a uma computação centralizada, sugerindo que a especialização em modelos de Mistura de Especialistas é muito menos difundida do que se acredita comumente. Este viés inerente também indica que os objetivos de treinamento atuais, como as perdas de balanceamento de carga que impõem uma utilização uniforme dos especialistas, podem estar atuando contra o caminho natural de otimização do modelo, limitando assim a eficiência do treinamento e o desempenho.

English

Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.

A Ilusão da Especialização: Revelando o "Comitê Permanente" Invariante ao Domínio em Modelos Mixture-of-Experts

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Resumo

Support