Amélioration de l'interprétabilité automatisée avec des descriptions de fonctionnalités centrées sur la sortie
Enhancing Automated Interpretability with Output-Centric Feature Descriptions
January 14, 2025
Auteurs: Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva
cs.AI
Résumé
Les pipelines d'interprétabilité automatisée génèrent des descriptions en langage naturel des concepts représentés par les caractéristiques des grands modèles de langage (LLM), tels que des plantes ou le premier mot dans une phrase. Ces descriptions sont dérivées en utilisant des entrées qui activent la caractéristique, qui peut être une dimension ou une direction dans l'espace de représentation du modèle. Cependant, l'identification des entrées activantes est coûteuse, et le rôle mécaniste d'une caractéristique dans le comportement du modèle est déterminé à la fois par la manière dont les entrées provoquent l'activation d'une caractéristique et par la manière dont l'activation de la caractéristique affecte les sorties. En utilisant des évaluations de direction, nous révélons que les pipelines actuels fournissent des descriptions qui ne parviennent pas à capturer l'effet causal de la caractéristique sur les sorties. Pour remédier à cela, nous proposons des méthodes efficaces et centrées sur les sorties pour générer automatiquement des descriptions de caractéristiques. Ces méthodes utilisent les jetons pondérés plus élevés après la stimulation de la caractéristique ou les jetons de poids le plus élevé après l'application de la tête "désembarquement" du vocabulaire directement à la caractéristique. Nos descriptions centrées sur les sorties capturent mieux l'effet causal d'une caractéristique sur les sorties du modèle que les descriptions centrées sur les entrées, mais la combinaison des deux conduit aux meilleures performances tant pour les évaluations d'entrée que de sortie. Enfin, nous montrons que les descriptions centrées sur les sorties peuvent être utilisées pour trouver des entrées qui activent des caractéristiques précédemment considérées comme "inactives".
English
Automated interpretability pipelines generate natural language descriptions
for the concepts represented by features in large language models (LLMs), such
as plants or the first word in a sentence. These descriptions are derived using
inputs that activate the feature, which may be a dimension or a direction in
the model's representation space. However, identifying activating inputs is
costly, and the mechanistic role of a feature in model behavior is determined
both by how inputs cause a feature to activate and by how feature activation
affects outputs. Using steering evaluations, we reveal that current pipelines
provide descriptions that fail to capture the causal effect of the feature on
outputs. To fix this, we propose efficient, output-centric methods for
automatically generating feature descriptions. These methods use the tokens
weighted higher after feature stimulation or the highest weight tokens after
applying the vocabulary "unembedding" head directly to the feature. Our
output-centric descriptions better capture the causal effect of a feature on
model outputs than input-centric descriptions, but combining the two leads to
the best performance on both input and output evaluations. Lastly, we show that
output-centric descriptions can be used to find inputs that activate features
previously thought to be "dead".