Interpretatie op Schaal: Het Identificeren van Causale Mechanismen in Alpaca

Samenvatting

Het verkrijgen van menselijk interpreteerbare verklaringen van grote, algemene taalmodelen is een urgent doel voor AI-veiligheid. Het is echter net zo belangrijk dat onze interpretatiemethoden trouw zijn aan de causale dynamiek die ten grondslag ligt aan het gedrag van het model en robuust kunnen generaliseren naar onbekende invoer. Distributed Alignment Search (DAS) is een krachtige gradient descent-methode die is geworteld in een theorie van causale abstractie en die perfecte afstemmingen heeft blootgelegd tussen interpreteerbare symbolische algoritmen en kleine deep learning-modellen die zijn afgestemd op specifieke taken. In dit artikel schalen we DAS aanzienlijk op door de overgebleven brute-force zoekstappen te vervangen door geleerde parameters – een aanpak die we DAS noemen. Hierdoor kunnen we efficiënt zoeken naar interpreteerbare causale structuren in grote taalmodelen terwijl ze instructies volgen. We passen DAS toe op het Alpaca-model (7B parameters), dat standaard een eenvoudig numeriek redeneerprobleem oplost. Met DAS ontdekken we dat Alpaca dit doet door een causaal model te implementeren met twee interpreteerbare booleaanse variabelen. Bovendien vinden we dat de afstemming van neurale representaties met deze variabelen robuust is tegen veranderingen in invoer en instructies. Deze bevindingen markeren een eerste stap naar een diepgaand begrip van de interne werking van onze grootste en meest gebruikte taalmodelen.

English

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters -- an approach we call DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward deeply understanding the inner-workings of our largest and most widely deployed language models.

Interpretatie op Schaal: Het Identificeren van Causale Mechanismen in Alpaca

Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

Samenvatting

Support