Mengsel van Experts Intrinsiek Interpreteerbaar Gemaakt
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Auteurs: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Samenvatting
Neuronen in grote taalmodelen vertonen vaak polysemantie, waarbij ze tegelijkertijd meerdere ongerelateerde concepten coderen en de interpreteerbaarheid bemoeilijken. In plaats van te vertrouwen op post-hoc methoden, presenteren we MoE-X, een Mixture-of-Experts (MoE) taalmodel dat ontworpen is om intrinsiek interpreteerbaar te zijn. Onze aanpak is gemotiveerd door de observatie dat in taalmodelen bredere netwerken met sparse activaties meer geneigd zijn interpreteerbare factoren vast te leggen. Het direct trainen van dergelijke grote, sparse netwerken is echter computationeel onhaalbaar. MoE-architecturen bieden een schaalbare alternatief door slechts een subset van experts te activeren voor een gegeven invoer, wat inherent aansluit bij interpreteerbaarheidsdoelen. In MoE-X leggen we deze verbinding door de MoE-laag te herschrijven als een equivalente sparse, grote MLP. Deze aanpak maakt efficiënte schaalvergroting van de verborgen grootte mogelijk terwijl de sparsiteit behouden blijft. Om de interpreteerbaarheid verder te verbeteren, dwingen we sparse activatie af binnen elke expert en herontwerpen we het routeringsmechanisme om experts met de hoogste activatiesparsiteit te prioriteren. Deze ontwerpen zorgen ervoor dat alleen de meest opvallende kenmerken worden doorgestuurd en verwerkt door de experts. We evalueren MoE-X op schaak- en natuurlijke-taaltaken, waarbij we aantonen dat het prestaties bereikt die vergelijkbaar zijn met die van dense modellen, terwijl de interpreteerbaarheid aanzienlijk verbetert. MoE-X behaalt een perplexiteit die beter is dan GPT-2, met een interpreteerbaarheid die zelfs sparse autoencoder (SAE)-gebaseerde benaderingen overtreft.
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary