Interprétabilité à grande échelle : Identification des mécanismes causaux dans Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
May 15, 2023
Auteurs: Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman
cs.AI
Résumé
Obtenir des explications interprétables par l'homme pour les grands modèles de langage à usage général est un objectif urgent pour la sécurité de l'IA. Cependant, il est tout aussi important que nos méthodes d'interprétabilité soient fidèles aux dynamiques causales sous-jacentes au comportement du modèle et capables de généraliser de manière robuste à des entrées non vues. La Recherche d'Alignement Distribué (DAS) est une méthode puissante de descente de gradient ancrée dans une théorie d'abstraction causale qui a révélé des alignements parfaits entre des algorithmes symboliques interprétables et de petits modèles d'apprentissage profond affinés pour des tâches spécifiques. Dans cet article, nous augmentons considérablement l'échelle de DAS en remplaçant les étapes restantes de recherche par force brute par des paramètres appris — une approche que nous appelons DAS. Cela nous permet de rechercher efficacement une structure causale interprétable dans les grands modèles de langage tout en suivant des instructions. Nous appliquons DAS au modèle Alpaca (7 milliards de paramètres), qui, tel quel, résout un problème simple de raisonnement numérique. Avec DAS, nous découvrons qu'Alpaca y parvient en implémentant un modèle causal avec deux variables booléennes interprétables. De plus, nous constatons que l'alignement des représentations neuronales avec ces variables est robuste aux changements d'entrées et d'instructions. Ces résultats marquent une première étape vers une compréhension approfondie du fonctionnement interne de nos plus grands et plus largement déployés modèles de langage.
English
Obtaining human-interpretable explanations of large, general-purpose language
models is an urgent goal for AI safety. However, it is just as important that
our interpretability methods are faithful to the causal dynamics underlying
model behavior and able to robustly generalize to unseen inputs. Distributed
Alignment Search (DAS) is a powerful gradient descent method grounded in a
theory of causal abstraction that uncovered perfect alignments between
interpretable symbolic algorithms and small deep learning models fine-tuned for
specific tasks. In the present paper, we scale DAS significantly by replacing
the remaining brute-force search steps with learned parameters -- an approach
we call DAS. This enables us to efficiently search for interpretable causal
structure in large language models while they follow instructions. We apply DAS
to the Alpaca model (7B parameters), which, off the shelf, solves a simple
numerical reasoning problem. With DAS, we discover that Alpaca does this by
implementing a causal model with two interpretable boolean variables.
Furthermore, we find that the alignment of neural representations with these
variables is robust to changes in inputs and instructions. These findings mark
a first step toward deeply understanding the inner-workings of our largest and
most widely deployed language models.