Autoencoders Esparsos Encontram Características Altamente Interpretáveis em Modelos de Linguagem
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Autores: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Resumo
Um dos obstáculos para uma melhor compreensão dos mecanismos internos das redes neurais é a polissemanticidade, onde os neurônios parecem ativar em múltiplos contextos semanticamente distintos. A polissemanticidade impede que identifiquemos explicações concisas e compreensíveis para humanos sobre o que as redes neurais estão fazendo internamente. Uma causa hipotética da polissemanticidade é a superposição, onde as redes neurais representam mais características do que o número de neurônios disponíveis, atribuindo essas características a um conjunto supercompleto de direções no espaço de ativação, em vez de a neurônios individuais. Aqui, tentamos identificar essas direções, utilizando autoencoders esparsos para reconstruir as ativações internas de um modelo de linguagem. Esses autoencoders aprendem conjuntos de características que ativam de forma esparsa e são mais interpretáveis e monossemânticas do que as direções identificadas por abordagens alternativas, onde a interpretabilidade é medida por métodos automatizados. A ablação dessas características permite uma edição precisa do modelo, por exemplo, removendo capacidades como a previsão de pronomes, enquanto causa menos perturbação no comportamento do modelo do que técnicas anteriores. Este trabalho indica que é possível resolver a superposição em modelos de linguagem usando um método escalável e não supervisionado. Nosso método pode servir como base para futuros trabalhos de interpretabilidade mecanicista, que esperamos possibilitar maior transparência e capacidade de direcionamento dos modelos.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.