AtP*: Эффективный и масштабируемый метод локализации поведения LLM на компоненты
AtP*: An efficient and scalable method for localizing LLM behaviour to components
March 1, 2024
Авторы: János Kramár, Tom Lieberum, Rohin Shah, Neel Nanda
cs.AI
Аннотация
Патчинг активации - это метод прямого вычисления причинно-следственных атрибуций поведения компонентам модели. Однако его полное применение требует сканирования с затратами, линейно масштабирующимися по числу компонентов модели, что может быть чрезмерно дорого для передовых крупных языковых моделей (LLM). Мы исследуем Патчинг Атрибуций (AtP) - быструю градиентную аппроксимацию Патчинга Активации и выявляем два класса режимов отказа AtP, которые приводят к значительным ложным отрицательным результатам. Мы предлагаем вариант AtP под названием AtP*, внесший два изменения для устранения этих режимов отказа, сохраняя при этом масштабируемость. Мы представляем первое систематическое исследование AtP и альтернативных методов для более быстрого патчинга активации и показываем, что AtP значительно превосходит все другие исследуемые методы, а AtP* обеспечивает дополнительное значительное улучшение. Наконец, мы предлагаем метод ограничения вероятности оставшихся ложных отрицательных оценок AtP*.
English
Activation Patching is a method of directly computing causal attributions of
behavior to model components. However, applying it exhaustively requires a
sweep with cost scaling linearly in the number of model components, which can
be prohibitively expensive for SoTA Large Language Models (LLMs). We
investigate Attribution Patching (AtP), a fast gradient-based approximation to
Activation Patching and find two classes of failure modes of AtP which lead to
significant false negatives. We propose a variant of AtP called AtP*, with two
changes to address these failure modes while retaining scalability. We present
the first systematic study of AtP and alternative methods for faster activation
patching and show that AtP significantly outperforms all other investigated
methods, with AtP* providing further significant improvement. Finally, we
provide a method to bound the probability of remaining false negatives of AtP*
estimates.