AtP*: Эффективный и масштабируемый метод локализации поведения LLM на компоненты

Аннотация

Патчинг активации - это метод прямого вычисления причинно-следственных атрибуций поведения компонентам модели. Однако его полное применение требует сканирования с затратами, линейно масштабирующимися по числу компонентов модели, что может быть чрезмерно дорого для передовых крупных языковых моделей (LLM). Мы исследуем Патчинг Атрибуций (AtP) - быструю градиентную аппроксимацию Патчинга Активации и выявляем два класса режимов отказа AtP, которые приводят к значительным ложным отрицательным результатам. Мы предлагаем вариант AtP под названием AtP*, внесший два изменения для устранения этих режимов отказа, сохраняя при этом масштабируемость. Мы представляем первое систематическое исследование AtP и альтернативных методов для более быстрого патчинга активации и показываем, что AtP значительно превосходит все другие исследуемые методы, а AtP* обеспечивает дополнительное значительное улучшение. Наконец, мы предлагаем метод ограничения вероятности оставшихся ложных отрицательных оценок AtP*.

English

Activation Patching is a method of directly computing causal attributions of behavior to model components. However, applying it exhaustively requires a sweep with cost scaling linearly in the number of model components, which can be prohibitively expensive for SoTA Large Language Models (LLMs). We investigate Attribution Patching (AtP), a fast gradient-based approximation to Activation Patching and find two classes of failure modes of AtP which lead to significant false negatives. We propose a variant of AtP called AtP*, with two changes to address these failure modes while retaining scalability. We present the first systematic study of AtP and alternative methods for faster activation patching and show that AtP significantly outperforms all other investigated methods, with AtP* providing further significant improvement. Finally, we provide a method to bound the probability of remaining false negatives of AtP* estimates.

AtP*: Эффективный и масштабируемый метод локализации поведения LLM на компоненты

AtP*: An efficient and scalable method for localizing LLM behaviour to components

Аннотация

Support