ChatPaper.aiChatPaper

AtP*: Um método eficiente e escalável para localizar o comportamento de LLM em componentes

AtP*: An efficient and scalable method for localizing LLM behaviour to components

March 1, 2024
Autores: János Kramár, Tom Lieberum, Rohin Shah, Neel Nanda
cs.AI

Resumo

A técnica de **Patch de Ativação** é um método para calcular diretamente as atribuições causais de comportamentos a componentes de modelos. No entanto, aplicá-la de forma exaustiva requer uma varredura com custo que escala linearmente com o número de componentes do modelo, o que pode ser proibitivamente caro para modelos de linguagem de última geração (LLMs, na sigla em inglês). Investigamos o **Patch de Atribuição** (AtP, na sigla em inglês), uma aproximação rápida baseada em gradientes para o Patch de Ativação, e identificamos duas classes de modos de falha do AtP que levam a falsos negativos significativos. Propomos uma variante do AtP, chamada **AtP***, com duas alterações para abordar esses modos de falha, mantendo a escalabilidade. Apresentamos o primeiro estudo sistemático do AtP e de métodos alternativos para realizar o patch de ativação de forma mais rápida, demonstrando que o AtP supera significativamente todos os outros métodos investigados, com o AtP* proporcionando uma melhoria adicional significativa. Por fim, fornecemos um método para limitar a probabilidade de falsos negativos remanescentes nas estimativas do AtP*.
English
Activation Patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA Large Language Models (LLMs). We investigate Attribution Patching (AtP), a fast gradient-based approximation to Activation Patching and find two classes of failure modes of AtP which lead to significant false negatives. We propose a variant of AtP called AtP*, with two changes to address these failure modes while retaining scalability. We present the first systematic study of AtP and alternative methods for faster activation patching and show that AtP significantly outperforms all other investigated methods, with AtP* providing further significant improvement. Finally, we provide a method to bound the probability of remaining false negatives of AtP* estimates.
PDF142December 15, 2024