Miscela di Esperti Resa Intrinsecamente Interpretabile
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Autori: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Abstract
I neuroni nei grandi modelli linguistici spesso presentano polisemanticità, codificando simultaneamente più concetti non correlati e oscurando l'interpretabilità. Invece di affidarci a metodi post-hoc, presentiamo MoE-X, un modello linguistico Mixture-of-Experts (MoE) progettato per essere intrinsecamente interpretabile. Il nostro approccio è motivato dall'osservazione che, nei modelli linguistici, reti più ampie con attivazioni sparse hanno maggiori probabilità di catturare fattori interpretabili. Tuttavia, addestrare direttamente tali reti sparse di grandi dimensioni è computazionalmente proibitivo. Le architetture MoE offrono un'alternativa scalabile attivando solo un sottoinsieme di esperti per ogni input, allineandosi intrinsecamente con gli obiettivi di interpretabilità. In MoE-X, stabiliamo questa connessione riscrivendo il livello MoE come un equivalente MLP sparso e di grandi dimensioni. Questo approccio consente una scalabilità efficiente della dimensione nascosta mantenendo la sparsità. Per migliorare ulteriormente l'interpretabilità, imponiamo un'attivazione sparsa all'interno di ogni esperto e ridisegniamo il meccanismo di routing per dare priorità agli esperti con la massima sparsità di attivazione. Questi progetti garantiscono che solo le caratteristiche più salienti vengano instradate e elaborate dagli esperti. Valutiamo MoE-X su compiti di scacchi e linguaggio naturale, dimostrando che raggiunge prestazioni comparabili ai modelli densi migliorando significativamente l'interpretabilità. MoE-X ottiene una perplessità migliore rispetto a GPT-2, con un'interpretabilità che supera persino gli approcci basati su autoencoder sparsi (SAE).
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.