Sparse Autoencoders Vinden Zeer Interpreteerbare Kenmerken in Taalmodellen
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Auteurs: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Samenvatting
Een van de obstakels voor een beter begrip van de interne werking van neurale netwerken is polysemantie, waarbij neuronen lijken te activeren in meerdere, semantisch verschillende contexten. Polysemantie verhindert dat we beknopte, voor mensen begrijpelijke verklaringen kunnen identificeren voor wat neurale netwerken intern doen. Een veronderstelde oorzaak van polysemantie is superpositie, waarbij neurale netwerken meer kenmerken representeren dan ze neuronen hebben, door kenmerken toe te wijzen aan een overcomplete set richtingen in de activatieruimte, in plaats van aan individuele neuronen. Hier proberen we die richtingen te identificeren door gebruik te maken van sparse autoencoders om de interne activaties van een taalmodel te reconstrueren. Deze autoencoders leren sets van spaars activerende kenmerken die meer interpreteerbaar en monosemantisch zijn dan richtingen die door alternatieve benaderingen worden geïdentificeerd, waarbij interpreteerbaarheid wordt gemeten door geautomatiseerde methoden. Het uitschakelen van deze kenmerken maakt precieze modelbewerking mogelijk, bijvoorbeeld door capaciteiten zoals voornaamwoordvoorspelling te verwijderen, terwijl het modelgedrag minder wordt verstoord dan bij eerdere technieken. Dit werk geeft aan dat het mogelijk is om superpositie in taalmodel op te lossen met behulp van een schaalbare, onbewaakte methode. Onze methode kan dienen als basis voor toekomstig mechanistisch interpreteerbaarheidsonderzoek, waarvan we hopen dat het een grotere modeltransparantie en stuurbaarheid mogelijk maakt.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.