L'analyse de circuits permet-elle une interprétabilité à grande échelle ? Preuves tirées des capacités à choix multiples chez Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla
July 18, 2023
Auteurs: Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik
cs.AI
Résumé
L'analyse de circuits est une technique prometteuse pour comprendre les mécanismes internes des modèles de langage. Cependant, les analyses existantes sont réalisées sur de petits modèles loin de l'état de l'art. Pour remédier à cela, nous présentons une étude de cas d'analyse de circuits dans le modèle Chinchilla 70B, visant à tester l'évolutivité de l'analyse de circuits. En particulier, nous étudions la réponse à des questions à choix multiples et examinons la capacité de Chinchilla à identifier l'étiquette de la bonne réponse en connaissant le texte de la réponse correcte.
Nous constatons que les techniques existantes d'attribution de logits, de visualisation des motifs d'attention et de patching d'activation s'étendent naturellement à Chinchilla, nous permettant d'identifier et de catégoriser un petit ensemble de `nœuds de sortie' (têtes d'attention et MLPs).
Nous étudions en outre la catégorie des têtes d'attention `lettre correcte' afin de comprendre la sémantique de leurs caractéristiques, avec des résultats mitigés. Pour les réponses normales à des questions à choix multiples, nous compressons significativement les sous-espaces de requête, de clé et de valeur de la tête sans perte de performance lors de l'opération sur les étiquettes de réponses des questions à choix multiples, et nous montrons que les sous-espaces de requête et de clé représentent dans une certaine mesure une caractéristique de `Nième élément dans une énumération'. Cependant, lorsque nous tentons d'utiliser cette explication pour comprendre le comportement des têtes sur une distribution plus générale incluant des étiquettes de réponses randomisées, nous constatons qu'il ne s'agit que d'une explication partielle, suggérant qu'il reste encore à apprendre sur le fonctionnement des têtes `lettre correcte' dans la réponse à des questions à choix multiples.
English
Circuit analysis is a promising technique for understanding the
internal mechanisms of language models. However, existing analyses are done in
small models far from the state of the art. To address this, we present a case
study of circuit analysis in the 70B Chinchilla model, aiming to test the
scalability of circuit analysis. In particular, we study multiple-choice
question answering, and investigate Chinchilla's capability to identify the
correct answer label given knowledge of the correct answer text.
We find that the existing techniques of logit attribution, attention pattern
visualization, and activation patching naturally scale to Chinchilla, allowing
us to identify and categorize a small set of `output nodes' (attention heads
and MLPs).
We further study the `correct letter' category of attention heads aiming to
understand the semantics of their features, with mixed results. For normal
multiple-choice question answers, we significantly compress the query, key and
value subspaces of the head without loss of performance when operating on the
answer labels for multiple-choice questions, and we show that the query and key
subspaces represent an `Nth item in an enumeration' feature to at least some
extent. However, when we attempt to use this explanation to understand the
heads' behaviour on a more general distribution including randomized answer
labels, we find that it is only a partial explanation, suggesting there is more
to learn about the operation of `correct letter' heads on multiple choice
question answering.