Les autoencodeurs clairsemés identifient des caractéristiques hautement interprétables dans les modèles de langage
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Auteurs: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Résumé
L'un des obstacles à une meilleure compréhension des mécanismes internes des réseaux de neurones est la polysémanticité, où les neurones semblent s'activer dans des contextes multiples et sémantiquement distincts. La polysémanticité nous empêche d'identifier des explications concises et compréhensibles par l'homme de ce que font les réseaux de neurones en interne. Une cause hypothétique de la polysémanticité est la superposition, où les réseaux de neurones représentent plus de caractéristiques qu'ils n'ont de neurones en assignant ces caractéristiques à un ensemble surcomplet de directions dans l'espace d'activation, plutôt qu'à des neurones individuels. Ici, nous tentons d'identifier ces directions en utilisant des autoencodeurs parcimonieux pour reconstruire les activations internes d'un modèle de langage. Ces autoencodeurs apprennent des ensembles de caractéristiques à activation parcimonieuse qui sont plus interprétables et monosémantiques que les directions identifiées par d'autres approches, où l'interprétabilité est mesurée par des méthodes automatisées. L'ablation de ces caractéristiques permet une édition précise du modèle, par exemple en supprimant des capacités telles que la prédiction des pronoms, tout en perturbant moins le comportement du modèle que les techniques précédentes. Ce travail indique qu'il est possible de résoudre la superposition dans les modèles de langage en utilisant une méthode évolutive et non supervisée. Notre méthode pourrait servir de base à de futurs travaux d'interprétabilité mécaniste, que nous espérons contribueront à une plus grande transparence et pilotabilité des modèles.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.