Interpretierbarkeit im großen Maßstab: Identifizierung kausaler Mechanismen in Alpaca

Zusammenfassung

Das Erlangen von menscheninterpretierbaren Erklärungen für große, allgemeine Sprachmodelle ist ein dringendes Ziel für die KI-Sicherheit. Ebenso wichtig ist jedoch, dass unsere Interpretationsmethoden den kausalen Dynamiken zugrunde liegenden Modellverhaltens treu bleiben und robust auf unbekannte Eingaben verallgemeinern können. Distributed Alignment Search (DAS) ist eine leistungsstarke Gradientenabstiegsmethode, die auf einer Theorie der kausalen Abstraktion basiert und perfekte Übereinstimmungen zwischen interpretierbaren symbolischen Algorithmen und kleinen, für spezifische Aufgaben feinabgestimmten Deep-Learning-Modellen aufdeckte. In diesem Artikel skalieren wir DAS erheblich, indem wir die verbleibenden Brute-Force-Suchschritte durch gelernte Parameter ersetzen – ein Ansatz, den wir DAS nennen. Dies ermöglicht es uns, effizient nach interpretierbarer kausaler Struktur in großen Sprachmodellen zu suchen, während sie Anweisungen befolgen. Wir wenden DAS auf das Alpaca-Modell (7B Parameter) an, das von Haus aus ein einfaches numerisches Problem löst. Mit DAS entdecken wir, dass Alpaca dies durch die Implementierung eines kausalen Modells mit zwei interpretierbaren booleschen Variablen erreicht. Darüber hinaus stellen wir fest, dass die Ausrichtung der neuronalen Repräsentationen mit diesen Variablen robust gegenüber Änderungen in Eingaben und Anweisungen ist. Diese Erkenntnisse markieren einen ersten Schritt hin zu einem tiefen Verständnis der inneren Funktionsweise unserer größten und am weitesten verbreiteten Sprachmodelle.

English

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters -- an approach we call DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward deeply understanding the inner-workings of our largest and most widely deployed language models.

Interpretierbarkeit im großen Maßstab: Identifizierung kausaler Mechanismen in Alpaca

Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

Zusammenfassung

Support