Mélange d'Experts Rendus Intrinsèquement Interprétables
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Auteurs: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Résumé
Les neurones dans les grands modèles de langage présentent souvent une polysémanticité, encodant simultanément plusieurs concepts non liés et obscurcissant ainsi l'interprétabilité. Plutôt que de recourir à des méthodes post-hoc, nous présentons MoE-X, un modèle de langage à base de Mixture-of-Experts (MoE) conçu pour être intrinsèquement interprétable. Notre approche est motivée par l'observation que, dans les modèles de langage, les réseaux plus larges avec des activations éparses sont plus susceptibles de capturer des facteurs interprétables. Cependant, entraîner directement de tels grands réseaux épars est prohibitif en termes de calcul. Les architectures MoE offrent une alternative évolutive en activant uniquement un sous-ensemble d'experts pour chaque entrée, s'alignant ainsi naturellement sur les objectifs d'interprétabilité. Dans MoE-X, nous établissons cette connexion en réécrivant la couche MoE comme un MLP (Multi-Layer Perceptron) éparse et large équivalent. Cette approche permet une mise à l'échelle efficace de la taille cachée tout en maintenant la parcimonie. Pour renforcer davantage l'interprétabilité, nous imposons une activation éparse au sein de chaque expert et redéfinissons le mécanisme de routage pour privilégier les experts présentant la plus grande parcimonie d'activation. Ces conceptions garantissent que seules les caractéristiques les plus saillantes sont routées et traitées par les experts. Nous évaluons MoE-X sur des tâches d'échecs et de langage naturel, montrant qu'il atteint des performances comparables aux modèles denses tout en améliorant significativement l'interprétabilité. MoE-X obtient une perplexité supérieure à celle de GPT-2, avec une interprétabilité surpassant même les approches basées sur des autoencodeurs épars (SAE).
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary