Monet : Mélange d'experts monosémantiques pour les transformeurs
Monet: Mixture of Monosemantic Experts for Transformers
December 5, 2024
Auteurs: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI
Résumé
La compréhension des calculs internes des grands modèles de langage (GML) est cruciale pour les aligner avec les valeurs humaines et prévenir les comportements indésirables tels que la génération de contenu toxique. Cependant, l'interprétabilité mécaniste est entravée par la polysémie - où des neurones individuels répondent à de multiples concepts non liés. Alors que les Autoencodeurs Épars (SAEs) ont tenté de démêler ces caractéristiques grâce à l'apprentissage de dictionnaires épars, ils ont compromis les performances des GML en raison de leur dépendance à la perte de reconstruction a posteriori. Pour résoudre ce problème, nous introduisons l'architecture Mélange d'Experts Monosémantiques pour les Transformers (Monet), qui intègre l'apprentissage de dictionnaires épars directement dans la préformation en bout en bout du Mélange d'Experts. Notre nouvelle méthode de décomposition des experts permet de faire évoluer le nombre d'experts à 262 144 par couche, tandis que les paramètres totaux évoluent de manière proportionnelle à la racine carrée du nombre d'experts. Nos analyses démontrent l'exclusivité mutuelle des connaissances entre les experts et mettent en valeur les connaissances paramétriques encapsulées au sein de chaque expert. De plus, Monet permet la manipulation des connaissances sur les domaines, les langues et l'atténuation de la toxicité sans dégrader les performances générales. Notre recherche de GML transparents met en lumière le potentiel d'augmenter le nombre d'experts pour améliorer l'interprétabilité mécaniste et restructurer directement les connaissances internes pour ajuster fondamentalement le comportement du modèle. Le code source et les points de contrôle pré-entraînés sont disponibles sur https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is
crucial for aligning them with human values and preventing undesirable
behaviors like toxic content generation. However, mechanistic interpretability
is hindered by polysemanticity -- where individual neurons respond to multiple,
unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to
disentangle these features through sparse dictionary learning, they have
compromised LLM performance due to reliance on post-hoc reconstruction loss. To
address this issue, we introduce Mixture of Monosemantic Experts for
Transformers (Monet) architecture, which incorporates sparse dictionary
learning directly into end-to-end Mixture-of-Experts pretraining. Our novel
expert decomposition method enables scaling the expert count to 262,144 per
layer while total parameters scale proportionally to the square root of the
number of experts. Our analyses demonstrate mutual exclusivity of knowledge
across experts and showcase the parametric knowledge encapsulated within
individual experts. Moreover, Monet allows knowledge manipulation over domains,
languages, and toxicity mitigation without degrading general performance. Our
pursuit of transparent LLMs highlights the potential of scaling expert counts
to enhance} mechanistic interpretability and directly resect the internal
knowledge to fundamentally adjust} model behavior. The source code and
pretrained checkpoints are available at https://github.com/dmis-lab/Monet.Summary
AI-Generated Summary