ChatPaper.aiChatPaper

Los Autoencoders Dispersos Encuentran Características Altamente Interpretables en Modelos de Lenguaje

Sparse Autoencoders Find Highly Interpretable Features in Language Models

September 15, 2023
Autores: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
cs.AI

Resumen

Uno de los obstáculos para una mejor comprensión de los mecanismos internos de las redes neuronales es la polisemanticidad, donde las neuronas parecen activarse en múltiples contextos semánticamente distintos. La polisemanticidad nos impide identificar explicaciones concisas y comprensibles para los humanos sobre lo que las redes neuronales están haciendo internamente. Una causa hipotética de la polisemanticidad es la superposición, donde las redes neuronales representan más características de las que tienen neuronas, asignando estas características a un conjunto sobredeterminado de direcciones en el espacio de activación, en lugar de a neuronas individuales. Aquí, intentamos identificar esas direcciones utilizando autoencoders dispersos para reconstruir las activaciones internas de un modelo de lenguaje. Estos autoencoders aprenden conjuntos de características que se activan de manera dispersa y son más interpretables y monosemánticas que las direcciones identificadas por enfoques alternativos, donde la interpretabilidad se mide mediante métodos automatizados. La ablación de estas características permite una edición precisa del modelo, por ejemplo, eliminando capacidades como la predicción de pronombres, mientras se perturba menos el comportamiento del modelo en comparación con técnicas anteriores. Este trabajo indica que es posible resolver la superposición en modelos de lenguaje utilizando un método escalable y no supervisado. Nuestro método puede servir como base para futuros trabajos de interpretabilidad mecanística, lo que esperamos permitirá una mayor transparencia y capacidad de dirección en los modelos.
English
One of the roadblocks to a better understanding of neural networks' internals is polysemanticity, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is superposition, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
PDF150December 15, 2024