ChatPaper.aiChatPaper

AtP*: Een efficiënte en schaalbare methode voor het lokaliseren van LLM-gedrag naar componenten

AtP*: An efficient and scalable method for localizing LLM behaviour to components

March 1, 2024
Auteurs: János Kramár, Tom Lieberum, Rohin Shah, Neel Nanda
cs.AI

Samenvatting

Activatiepatchen is een methode om direct causale attributies van gedrag aan modelcomponenten te berekenen. Het exhaustief toepassen ervan vereist echter een doorloop met kosten die lineair schalen met het aantal modelcomponenten, wat voor state-of-the-art Large Language Models (LLM's) onbetaalbaar duur kan zijn. Wij onderzoeken Attributiepatchen (AtP), een snelle, op gradienten gebaseerde benadering van Activatiepatchen, en identificeren twee soorten faalmodi van AtP die leiden tot significante fout-negatieven. We stellen een variant van AtP voor, genaamd AtP*, met twee aanpassingen om deze faalmodi aan te pakken terwijl de schaalbaarheid behouden blijft. We presenteren de eerste systematische studie van AtP en alternatieve methoden voor sneller activatiepatchen en tonen aan dat AtP significant beter presteert dan alle andere onderzochte methoden, waarbij AtP* een verdere significante verbetering biedt. Tot slot bieden we een methode om de kans op resterende fout-negatieven van AtP*-schattingen te begrenzen.
English
Activation Patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA Large Language Models (LLMs). We investigate Attribution Patching (AtP), a fast gradient-based approximation to Activation Patching and find two classes of failure modes of AtP which lead to significant false negatives. We propose a variant of AtP called AtP*, with two changes to address these failure modes while retaining scalability. We present the first systematic study of AtP and alternative methods for faster activation patching and show that AtP significantly outperforms all other investigated methods, with AtP* providing further significant improvement. Finally, we provide a method to bound the probability of remaining false negatives of AtP* estimates.
PDF142December 15, 2024