Amélioration de l'interprétabilité automatisée avec des descriptions de fonctionnalités centrées sur la sortie

papers.abstract

Les pipelines d'interprétabilité automatisée génèrent des descriptions en langage naturel des concepts représentés par les caractéristiques des grands modèles de langage (LLM), tels que des plantes ou le premier mot dans une phrase. Ces descriptions sont dérivées en utilisant des entrées qui activent la caractéristique, qui peut être une dimension ou une direction dans l'espace de représentation du modèle. Cependant, l'identification des entrées activantes est coûteuse, et le rôle mécaniste d'une caractéristique dans le comportement du modèle est déterminé à la fois par la manière dont les entrées provoquent l'activation d'une caractéristique et par la manière dont l'activation de la caractéristique affecte les sorties. En utilisant des évaluations de direction, nous révélons que les pipelines actuels fournissent des descriptions qui ne parviennent pas à capturer l'effet causal de la caractéristique sur les sorties. Pour remédier à cela, nous proposons des méthodes efficaces et centrées sur les sorties pour générer automatiquement des descriptions de caractéristiques. Ces méthodes utilisent les jetons pondérés plus élevés après la stimulation de la caractéristique ou les jetons de poids le plus élevé après l'application de la tête "désembarquement" du vocabulaire directement à la caractéristique. Nos descriptions centrées sur les sorties capturent mieux l'effet causal d'une caractéristique sur les sorties du modèle que les descriptions centrées sur les entrées, mais la combinaison des deux conduit aux meilleures performances tant pour les évaluations d'entrée que de sortie. Enfin, nous montrons que les descriptions centrées sur les sorties peuvent être utilisées pour trouver des entrées qui activent des caractéristiques précédemment considérées comme "inactives".

English

Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model's representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary "unembedding" head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be "dead".

Amélioration de l'interprétabilité automatisée avec des descriptions de fonctionnalités centrées sur la sortie

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

papers.abstract

Support