Sparse Autoencoder entdecken hochgradig interpretierbare Merkmale in Sprachmodellen
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Autoren: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Zusammenfassung
Ein Hindernis für ein besseres Verständnis der internen Abläufe von neuronalen Netzen ist die Polysemantizität, bei der Neuronen in mehreren, semantisch unterschiedlichen Kontexten aktiv zu werden scheinen. Polysemantizität verhindert, dass wir präzise, für Menschen verständliche Erklärungen dafür finden, was neuronale Netze intern tun. Eine vermutete Ursache für Polysemantizität ist die Superposition, bei der neuronale Netze mehr Merkmale darstellen, als sie Neuronen haben, indem sie Merkmale einem übervollständigen Satz von Richtungen im Aktivierungsraum zuordnen, anstatt einzelnen Neuronen. Hier versuchen wir, diese Richtungen zu identifizieren, indem wir spärliche Autoencoder verwenden, um die internen Aktivierungen eines Sprachmodells zu rekonstruieren. Diese Autoencoder lernen Sätze von spärlich aktivierenden Merkmalen, die interpretierbarer und monosemantischer sind als die durch alternative Ansätze identifizierten Richtungen, wobei die Interpretierbarkeit durch automatisierte Methoden gemessen wird. Das Ablieren dieser Merkmale ermöglicht eine präzise Modellbearbeitung, beispielsweise durch das Entfernen von Fähigkeiten wie der Pronomenvorhersage, wobei das Modellverhalten weniger gestört wird als bei früheren Techniken. Diese Arbeit zeigt, dass es möglich ist, Superposition in Sprachmodellen mit einer skalierbaren, unüberwachten Methode aufzulösen. Unsere Methode könnte als Grundlage für zukünftige mechanistische Interpretierbarkeitsarbeit dienen, von der wir hoffen, dass sie eine größere Modelltransparenz und Steuerbarkeit ermöglichen wird.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.