Los Autoencoders Dispersos Encuentran Características Altamente Interpretables en Modelos de Lenguaje
Sparse Autoencoders Find Highly Interpretable Features in Language Models
September 15, 2023
Autores: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI
Resumen
Uno de los obstáculos para una mejor comprensión de los mecanismos internos de las redes neuronales es la polisemanticidad, donde las neuronas parecen activarse en múltiples contextos semánticamente distintos. La polisemanticidad nos impide identificar explicaciones concisas y comprensibles para los humanos sobre lo que las redes neuronales están haciendo internamente. Una causa hipotética de la polisemanticidad es la superposición, donde las redes neuronales representan más características de las que tienen neuronas, asignando estas características a un conjunto sobredeterminado de direcciones en el espacio de activación, en lugar de a neuronas individuales. Aquí, intentamos identificar esas direcciones utilizando autoencoders dispersos para reconstruir las activaciones internas de un modelo de lenguaje. Estos autoencoders aprenden conjuntos de características que se activan de manera dispersa y son más interpretables y monosemánticas que las direcciones identificadas por enfoques alternativos, donde la interpretabilidad se mide mediante métodos automatizados. La ablación de estas características permite una edición precisa del modelo, por ejemplo, eliminando capacidades como la predicción de pronombres, mientras se perturba menos el comportamiento del modelo en comparación con técnicas anteriores. Este trabajo indica que es posible resolver la superposición en modelos de lenguaje utilizando un método escalable y no supervisado. Nuestro método puede servir como base para futuros trabajos de interpretabilidad mecanística, lo que esperamos permitirá una mayor transparencia y capacidad de dirección en los modelos.
English
One of the roadblocks to a better understanding of neural networks' internals
is polysemanticity, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
superposition, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.