AtP* : Une méthode efficace et évolutive pour localiser le comportement des LLM au niveau des composants
AtP*: An efficient and scalable method for localizing LLM behaviour to components
March 1, 2024
Auteurs: János Kramár, Tom Lieberum, Rohin Shah, Neel Nanda
cs.AI
Résumé
Le _Patch d'Activation_ est une méthode permettant de calculer directement les attributions causales du comportement aux composants d'un modèle. Cependant, son application exhaustive nécessite un balayage dont le coût augmente linéairement avec le nombre de composants du modèle, ce qui peut s'avérer prohibitif pour les modèles de langage de pointe (LLMs). Nous étudions le _Patch d'Attribution_ (AtP), une approximation rapide basée sur les gradients du _Patch d'Activation_, et identifions deux classes de modes d'échec d'AtP conduisant à des faux négatifs significatifs. Nous proposons une variante d'AtP appelée AtP*, avec deux modifications pour résoudre ces modes d'échec tout en conservant l'évolutivité. Nous présentons la première étude systématique d'AtP et des méthodes alternatives pour un _Patch d'Activation_ plus rapide, et montrons qu'AtP surpasse significativement toutes les autres méthodes étudiées, avec AtP* offrant une amélioration supplémentaire notable. Enfin, nous fournissons une méthode pour borner la probabilité des faux négatifs restants dans les estimations d'AtP*.
English
Activation Patching is a method of directly computing causal attributions of
behavior to model components. However, applying it exhaustively requires a
sweep with cost scaling linearly in the number of model components, which can
be prohibitively expensive for SoTA Large Language Models (LLMs). We
investigate Attribution Patching (AtP), a fast gradient-based approximation to
Activation Patching and find two classes of failure modes of AtP which lead to
significant false negatives. We propose a variant of AtP called AtP*, with two
changes to address these failure modes while retaining scalability. We present
the first systematic study of AtP and alternative methods for faster activation
patching and show that AtP significantly outperforms all other investigated
methods, with AtP* providing further significant improvement. Finally, we
provide a method to bound the probability of remaining false negatives of AtP*
estimates.