Использование механистической интерпретируемости для создания атак на большие языковые модели
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Авторы: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Аннотация
Традиционные методы "белого ящика" для создания враждебных возмущений против крупных языковых моделей (LLM) обычно полагаются исключительно на вычисление градиентов целевой модели, игнорируя внутренние механизмы, ответственные за успех или неудачу атаки. С другой стороны, исследования интерпретируемости, анализирующие эти внутренние механизмы, не находят практического применения за пределами вмешательств в режиме реального времени. Мы устраняем этот разрыв, предлагая новый подход "белого ящика", который использует методы механистической интерпретируемости для создания практических враждебных входных данных. В частности, мы сначала идентифицируем подпространства принятия — наборы векторов признаков, которые не активируют механизмы отказа модели, — а затем используем градиентную оптимизацию для перенаправления эмбеддингов из подпространств отказа в подпространства принятия, эффективно достигая "взлома" модели. Этот целенаправленный подход значительно снижает вычислительные затраты, достигая успешности атак в 80-95% на современных моделях, включая Gemma2, Llama3.2 и Qwen2.5, за минуты или даже секунды, в отличие от существующих методов, которые часто терпят неудачу или требуют часов вычислений. Мы считаем, что этот подход открывает новое направление как для исследований атак, так и для разработки защитных механизмов. Более того, он демонстрирует практическое применение механистической интерпретируемости в тех случаях, где другие методы менее эффективны, что подчеркивает её полезность. Код и сгенерированные наборы данных доступны по адресу https://github.com/Sckathach/subspace-rerouting.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary