ChatPaper.aiChatPaper

L'illusion de la spécialisation : révéler le « comité permanent » invariant au domaine dans les modèles Mixture-of-Experts

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

January 6, 2026
papers.authors: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu
cs.AI

papers.abstract

Les modèles à mélange d'experts sont généralement considérés comme atteignant une spécialisation par domaine grâce à un routage parcimonieux. Dans ce travail, nous remettons en question cette hypothèse en introduisant COMMITTEEAUDIT, un cadre d'analyse post hoc qui examine le comportement de routage au niveau des groupes d'experts plutôt qu'au niveau individuel. Sur trois modèles représentatifs et le benchmark MMLU, nous mettons en évidence un Comité Permanent invariant au domaine. Il s'agit d'une coalition compacte d'experts routés qui capte systématiquement la majorité de la masse de routage, quels que soient les domaines, les couches du modèle ou les budgets de routage, et ce même lorsque les architectures incluent déjà des experts partagés. Une analyse qualitative montre en outre que les Comités Permanents ancrent la structure du raisonnement et la syntaxe, tandis que les experts périphériques traitent les connaissances spécifiques à un domaine. Ces résultats révèlent un biais structurel prononcé en faveur d'un calcul centralisé, suggérant que la spécialisation dans les modèles à mélange d'experts est bien moins omniprésente qu'on ne le pense généralement. Ce biais inhérent indique également que les objectifs d'entraînement actuels, tels que les fonctions de perte d'équilibrage de charge qui imposent une utilisation uniforme des experts, pourraient aller à l'encontre du chemin d'optimisation naturel du modèle, limitant ainsi l'efficacité de l'entraînement et les performances.
English
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
PDF91January 10, 2026