ChatPaper.aiChatPaper

Autoencoders Esparsos Encontram Características Altamente Interpretáveis em Modelos de Linguagem

Sparse Autoencoders Find Highly Interpretable Features in Language Models

September 15, 2023
Autores: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI

Resumo

Um dos obstáculos para uma melhor compreensão dos mecanismos internos das redes neurais é a polissemanticidade, onde os neurônios parecem ativar em múltiplos contextos semanticamente distintos. A polissemanticidade impede que identifiquemos explicações concisas e compreensíveis para humanos sobre o que as redes neurais estão fazendo internamente. Uma causa hipotética da polissemanticidade é a superposição, onde as redes neurais representam mais características do que o número de neurônios disponíveis, atribuindo essas características a um conjunto supercompleto de direções no espaço de ativação, em vez de a neurônios individuais. Aqui, tentamos identificar essas direções, utilizando autoencoders esparsos para reconstruir as ativações internas de um modelo de linguagem. Esses autoencoders aprendem conjuntos de características que ativam de forma esparsa e são mais interpretáveis e monossemânticas do que as direções identificadas por abordagens alternativas, onde a interpretabilidade é medida por métodos automatizados. A ablação dessas características permite uma edição precisa do modelo, por exemplo, removendo capacidades como a previsão de pronomes, enquanto causa menos perturbação no comportamento do modelo do que técnicas anteriores. Este trabalho indica que é possível resolver a superposição em modelos de linguagem usando um método escalável e não supervisionado. Nosso método pode servir como base para futuros trabalhos de interpretabilidade mecanicista, que esperamos possibilitar maior transparência e capacidade de direcionamento dos modelos.
English
One of the roadblocks to a better understanding of neural networks' internals is polysemanticity, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is superposition, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
PDF150December 15, 2024