L'illusione della specializzazione: svelare il "comitato permanente" dominio-invariante nei modelli Mixture-of-Experts

Abstract

I modelli Mixture of Experts sono ampiamente ritenuti in grado di ottenere una specializzazione di dominio attraverso l'instradamento sparso. In questo lavoro, mettiamo in discussione questa ipotesi introducendo COMMITTEEAUDIT, un framework *post hoc* che analizza il comportamento di instradamento a livello di gruppi di esperti piuttosto che di esperti individuali. In tre modelli rappresentativi e nel benchmark MMLU, scopriamo un Comitato Permanente invariante al dominio. Si tratta di una coalizione compatta di esperti instradati che cattura costantemente la maggior parte della massa di instradamento attraverso domini, strati e budget di instradamento, anche quando le architetture includono già esperti condivisi. Un'analisi qualitativa mostra inoltre che i Comitati Permanenti ancorano la struttura del ragionamento e la sintassi, mentre gli esperti periferici gestiscono la conoscenza specifica del dominio. Questi risultati rivelano un forte bias strutturale verso il calcolo centralizzato, suggerendo che la specializzazione nei modelli Mixture of Experts è molto meno pervasiva di quanto comunemente si creda. Questo bias intrinseco indica anche che gli obiettivi di addestramento attuali, come le funzioni di perdita di bilanciamento del carico che impongono un utilizzo uniforme degli esperti, potrebbero operare contro il percorso di ottimizzazione naturale del modello, limitando così l'efficienza e le prestazioni dell'addestramento.

English

Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.

L'illusione della specializzazione: svelare il "comitato permanente" dominio-invariante nei modelli Mixture-of-Experts

The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models

Abstract

Support