Interpretierbarkeit im großen Maßstab: Identifizierung kausaler Mechanismen in Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
May 15, 2023
Autoren: Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman
cs.AI
Zusammenfassung
Das Erlangen von menscheninterpretierbaren Erklärungen für große, allgemeine Sprachmodelle ist ein dringendes Ziel für die KI-Sicherheit. Ebenso wichtig ist jedoch, dass unsere Interpretationsmethoden den kausalen Dynamiken zugrunde liegenden Modellverhaltens treu bleiben und robust auf unbekannte Eingaben verallgemeinern können. Distributed Alignment Search (DAS) ist eine leistungsstarke Gradientenabstiegsmethode, die auf einer Theorie der kausalen Abstraktion basiert und perfekte Übereinstimmungen zwischen interpretierbaren symbolischen Algorithmen und kleinen, für spezifische Aufgaben feinabgestimmten Deep-Learning-Modellen aufdeckte. In diesem Artikel skalieren wir DAS erheblich, indem wir die verbleibenden Brute-Force-Suchschritte durch gelernte Parameter ersetzen – ein Ansatz, den wir DAS nennen. Dies ermöglicht es uns, effizient nach interpretierbarer kausaler Struktur in großen Sprachmodellen zu suchen, während sie Anweisungen befolgen. Wir wenden DAS auf das Alpaca-Modell (7B Parameter) an, das von Haus aus ein einfaches numerisches Problem löst. Mit DAS entdecken wir, dass Alpaca dies durch die Implementierung eines kausalen Modells mit zwei interpretierbaren booleschen Variablen erreicht. Darüber hinaus stellen wir fest, dass die Ausrichtung der neuronalen Repräsentationen mit diesen Variablen robust gegenüber Änderungen in Eingaben und Anweisungen ist. Diese Erkenntnisse markieren einen ersten Schritt hin zu einem tiefen Verständnis der inneren Funktionsweise unserer größten und am weitesten verbreiteten Sprachmodelle.
English
Obtaining human-interpretable explanations of large, general-purpose language
models is an urgent goal for AI safety. However, it is just as important that
our interpretability methods are faithful to the causal dynamics underlying
model behavior and able to robustly generalize to unseen inputs. Distributed
Alignment Search (DAS) is a powerful gradient descent method grounded in a
theory of causal abstraction that uncovered perfect alignments between
interpretable symbolic algorithms and small deep learning models fine-tuned for
specific tasks. In the present paper, we scale DAS significantly by replacing
the remaining brute-force search steps with learned parameters -- an approach
we call DAS. This enables us to efficiently search for interpretable causal
structure in large language models while they follow instructions. We apply DAS
to the Alpaca model (7B parameters), which, off the shelf, solves a simple
numerical reasoning problem. With DAS, we discover that Alpaca does this by
implementing a causal model with two interpretable boolean variables.
Furthermore, we find that the alignment of neural representations with these
variables is robust to changes in inputs and instructions. These findings mark
a first step toward deeply understanding the inner-workings of our largest and
most widely deployed language models.