ChatPaper.aiChatPaper

전문화의 환상: 혼합 전문가 모델에서 도메인 불변적 '상임 위원회'의 발견

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

January 6, 2026
저자: Yan Wang, Yitao Xu, Nanhan Shen, Jinyan Su, Jimin Huang, Zining Zhu
cs.AI

초록

전문가 혼합(Mixture of Experts) 모델은 일반적으로 희소 라우팅을 통해 도메인 특화를 달성하는 것으로 알려져 있습니다. 본 연구에서는 이러한 가정에 의문을 제기하며, 개별 전문가 수준이 아닌 전문가 그룹 수준에서 라우팅 동작을 분석하는 사후 분석 프레임워크인 COMMITTEEAUDIT을 소개합니다. 세 가지 대표적인 모델과 MMLU 벤치마크를 대상으로 분석한 결과, 도메인에 불변하는 '상임 위원회(Standing Committee)'를 발견했습니다. 이는 도메인, 계층, 라우팅 예산에 관계없이 일관되게 대부분의 라우팅 양을 차지하는, 라우팅된 전문가들로 구성된 소규모 연합입니다. 이는 아키텍처에 이미 공유 전문가가 포함된 경우에도 마찬가지입니다. 정성적 분석을 통해 상임 위원회는 추론 구조와 구문의 핵심을 담당하는 반면, 주변부 전문가들은 도메인 특화 지식을 처리한다는 사실을 추가로 확인했습니다. 이러한 발견은 중앙집중화된 계산을 향한 강한 구조적 편향을 드러내며, 전문가 혼합 모델의 특화 정도가 일반적으로 생각하는 것보다 훨씬 제한적임을 시사합니다. 이러한 내재적 편향은 또한 전문가 활용도를 균일하게 강제하는 부하 분산 손실 함수와 같은 현재의 훈련 목표가 모델의 자연스러운 최적화 경로에 역행함으로써 훈련 효율성과 성능을 제한하고 있을 수 있음을 나타냅니다.
English
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
PDF91January 10, 2026