Die Illusion der Spezialisierung: Aufdeckung des domäneninvarianten "Ständigen Ausschusses" in Mixture-of-Experts-Modellen
The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models
January 6, 2026
papers.authors: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu
cs.AI
papers.abstract
Mixture-of-Experts-Modelle wird allgemein unterstellt, dass sie durch sparsames Routing Domänenspezialisierung erreichen. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir COMMITTEEAUDIT vorstellen, ein Post-hoc-Framework, das das Routing-Verhalten auf der Ebene von Expertengruppen anstelle einzelner Experten analysiert. Anhand von drei repräsentativen Modellen und dem MMLU-Benchmark decken wir einen domäneninvarianten "Ständigen Ausschuss" (Standing Committee) auf. Dabei handelt es sich um eine kompakte Gruppe von gerouteten Experten, die konsistent den Großteil der Routing-Masse über Domänen, Layer und Routing-Budgets hinweg auf sich zieht, selbst wenn Architekturen bereits Shared Experts enthalten. Qualitative Analysen zeigen weiterhin, dass Ständige Ausschüsse die Argumentationsstruktur und Syntax verankern, während periphere Experten domänenspezifisches Wissen verarbeiten. Diese Ergebnisse offenbaren eine starke strukturelle Verzerrung hin zu zentralisierter Berechnung, was nahelegt, dass die Spezialisierung in Mixture-of-Experts-Modellen bei weitem nicht so verbreitet ist, wie gemeinhin angenommen. Diese inhärente Verzerrung deutet zudem darauf hin, dass aktuelle Trainingsziele, wie Lastverteilungsverluste (Load-Balancing Losses), die eine gleichmäßige Expertenauslastung erzwingen, möglicherweise dem natürlichen Optimierungspfad des Modells entgegenwirken und dadurch die Trainingseffizienz und Leistung begrenzen.
English
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.