AtP* : Une méthode efficace et évolutive pour localiser le comportement des LLM au niveau des composants

papers.abstract

Le _Patch d'Activation_ est une méthode permettant de calculer directement les attributions causales du comportement aux composants d'un modèle. Cependant, son application exhaustive nécessite un balayage dont le coût augmente linéairement avec le nombre de composants du modèle, ce qui peut s'avérer prohibitif pour les modèles de langage de pointe (LLMs). Nous étudions le _Patch d'Attribution_ (AtP), une approximation rapide basée sur les gradients du _Patch d'Activation_, et identifions deux classes de modes d'échec d'AtP conduisant à des faux négatifs significatifs. Nous proposons une variante d'AtP appelée AtP*, avec deux modifications pour résoudre ces modes d'échec tout en conservant l'évolutivité. Nous présentons la première étude systématique d'AtP et des méthodes alternatives pour un _Patch d'Activation_ plus rapide, et montrons qu'AtP surpasse significativement toutes les autres méthodes étudiées, avec AtP* offrant une amélioration supplémentaire notable. Enfin, nous fournissons une méthode pour borner la probabilité des faux négatifs restants dans les estimations d'AtP*.

English

Activation Patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA Large Language Models (LLMs). We investigate Attribution Patching (AtP), a fast gradient-based approximation to Activation Patching and find two classes of failure modes of AtP which lead to significant false negatives. We propose a variant of AtP called AtP*, with two changes to address these failure modes while retaining scalability. We present the first systematic study of AtP and alternative methods for faster activation patching and show that AtP significantly outperforms all other investigated methods, with AtP* providing further significant improvement. Finally, we provide a method to bound the probability of remaining false negatives of AtP* estimates.

AtP* : Une méthode efficace et évolutive pour localiser le comportement des LLM au niveau des composants

AtP*: An efficient and scalable method for localizing LLM behaviour to components

papers.abstract

Support