Gli Autoencoder Sparse Trovano Caratteristiche Altamente Interpretabili nei Modelli Linguistici
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Autori: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Abstract
Uno degli ostacoli a una migliore comprensione del funzionamento interno delle reti neurali è la polisemanticità, in cui i neuroni sembrano attivarsi in contesti multipli e semanticamente distinti. La polisemanticità ci impedisce di identificare spiegazioni concise e comprensibili per l'uomo su ciò che le reti neurali stanno facendo internamente. Una causa ipotizzata della polisemanticità è la sovrapposizione, in cui le reti neurali rappresentano più caratteristiche di quante ne abbiano neuroni, assegnando le caratteristiche a un insieme sovracompleto di direzioni nello spazio di attivazione, piuttosto che a singoli neuroni. In questo lavoro, tentiamo di identificare queste direzioni, utilizzando autoencoder sparsi per ricostruire le attivazioni interne di un modello linguistico. Questi autoencoder apprendono insiemi di caratteristiche che si attivano in modo sparso e sono più interpretabili e monosemantici rispetto alle direzioni identificate da approcci alternativi, dove l'interpretabilità è misurata con metodi automatizzati. L'ablazione di queste caratteristiche consente una modifica precisa del modello, ad esempio rimuovendo capacità come la previsione dei pronomi, con un impatto minore sul comportamento del modello rispetto alle tecniche precedenti. Questo lavoro indica che è possibile risolvere la sovrapposizione nei modelli linguistici utilizzando un metodo scalabile e non supervisionato. Il nostro metodo potrebbe servire come base per futuri lavori di interpretabilità meccanicistica, che speriamo possano portare a una maggiore trasparenza e governabilità dei modelli.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.