Gli Autoencoder Sparse Trovano Caratteristiche Altamente Interpretabili nei Modelli Linguistici

Abstract

Uno degli ostacoli a una migliore comprensione del funzionamento interno delle reti neurali è la polisemanticità, in cui i neuroni sembrano attivarsi in contesti multipli e semanticamente distinti. La polisemanticità ci impedisce di identificare spiegazioni concise e comprensibili per l'uomo su ciò che le reti neurali stanno facendo internamente. Una causa ipotizzata della polisemanticità è la sovrapposizione, in cui le reti neurali rappresentano più caratteristiche di quante ne abbiano neuroni, assegnando le caratteristiche a un insieme sovracompleto di direzioni nello spazio di attivazione, piuttosto che a singoli neuroni. In questo lavoro, tentiamo di identificare queste direzioni, utilizzando autoencoder sparsi per ricostruire le attivazioni interne di un modello linguistico. Questi autoencoder apprendono insiemi di caratteristiche che si attivano in modo sparso e sono più interpretabili e monosemantici rispetto alle direzioni identificate da approcci alternativi, dove l'interpretabilità è misurata con metodi automatizzati. L'ablazione di queste caratteristiche consente una modifica precisa del modello, ad esempio rimuovendo capacità come la previsione dei pronomi, con un impatto minore sul comportamento del modello rispetto alle tecniche precedenti. Questo lavoro indica che è possibile risolvere la sovrapposizione nei modelli linguistici utilizzando un metodo scalabile e non supervisionato. Il nostro metodo potrebbe servire come base per futuri lavori di interpretabilità meccanicistica, che speriamo possano portare a una maggiore trasparenza e governabilità dei modelli.

English

One of the roadblocks to a better understanding of neural networks' internals is polysemanticity, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is superposition, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.

Gli Autoencoder Sparse Trovano Caratteristiche Altamente Interpretabili nei Modelli Linguistici

Sparse Autoencoders Find Highly Interpretable Features in Language Models

Abstract

Support