Skaliert die Interpretierbarkeit von Schaltkreisen? Belege aus den Multiple-Choice-Fähigkeiten von Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla
July 18, 2023
Autoren: Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik
cs.AI
Zusammenfassung
Die Schaltkreisanalyse ist eine vielversprechende Technik, um die internen Mechanismen von Sprachmodellen zu verstehen. Bisherige Analysen wurden jedoch an kleinen Modellen durchgeführt, die weit vom Stand der Technik entfernt sind. Um dies zu adressieren, präsentieren wir eine Fallstudie zur Schaltkreisanalyse im 70B Chinchilla-Modell, mit dem Ziel, die Skalierbarkeit der Schaltkreisanalyse zu testen. Insbesondere untersuchen wir Multiple-Choice-Fragen und analysieren die Fähigkeit von Chinchilla, die richtige Antwortkennung zu identifizieren, wenn der korrekte Antworttext bekannt ist.
Wir stellen fest, dass die bestehenden Techniken der Logit-Attribution, der Visualisierung von Aufmerksamkeitsmustern und der Aktivierungspatchung sich problemlos auf Chinchilla skalieren lassen, wodurch wir eine kleine Menge von `Ausgabeknoten' (Aufmerksamkeitsköpfe und MLPs) identifizieren und kategorisieren können.
Weiterhin untersuchen wir die Kategorie der `korrekten Buchstaben'-Aufmerksamkeitsköpfe, um die Semantik ihrer Merkmale zu verstehen, mit gemischten Ergebnissen. Bei normalen Multiple-Choice-Fragen komprimieren wir die Query-, Key- und Value-Subräume des Kopfes signifikant, ohne Leistungseinbußen bei der Verarbeitung der Antwortkennungen für Multiple-Choice-Fragen, und wir zeigen, dass die Query- und Key-Subräume zumindest teilweise ein `N-tes Element in einer Aufzählung'-Merkmal repräsentieren. Wenn wir jedoch versuchen, diese Erklärung zu nutzen, um das Verhalten der Köpfe auf einer allgemeineren Verteilung, einschließlich randomisierter Antwortkennungen, zu verstehen, stellen wir fest, dass es sich nur um eine teilweise Erklärung handelt, was darauf hindeutet, dass es noch mehr über die Funktionsweise der `korrekten Buchstaben'-Köpfe bei Multiple-Choice-Fragen zu lernen gibt.
English
Circuit analysis is a promising technique for understanding the
internal mechanisms of language models. However, existing analyses are done in
small models far from the state of the art. To address this, we present a case
study of circuit analysis in the 70B Chinchilla model, aiming to test the
scalability of circuit analysis. In particular, we study multiple-choice
question answering, and investigate Chinchilla's capability to identify the
correct answer label given knowledge of the correct answer text.
We find that the existing techniques of logit attribution, attention pattern
visualization, and activation patching naturally scale to Chinchilla, allowing
us to identify and categorize a small set of `output nodes' (attention heads
and MLPs).
We further study the `correct letter' category of attention heads aiming to
understand the semantics of their features, with mixed results. For normal
multiple-choice question answers, we significantly compress the query, key and
value subspaces of the head without loss of performance when operating on the
answer labels for multiple-choice questions, and we show that the query and key
subspaces represent an `Nth item in an enumeration' feature to at least some
extent. However, when we attempt to use this explanation to understand the
heads' behaviour on a more general distribution including randomized answer
labels, we find that it is only a partial explanation, suggesting there is more
to learn about the operation of `correct letter' heads on multiple choice
question answering.