Usando Interpretabilidade Mecanicista para Criar Ataques Adversariais contra Modelos de Linguagem de Grande Escala
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Autores: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Resumo
Métodos tradicionais de caixa branca para criar perturbações adversárias contra LLMs (Large Language Models) geralmente dependem apenas do cálculo de gradientes do modelo alvo, ignorando os mecanismos internos responsáveis pelo sucesso ou falha do ataque. Por outro lado, estudos de interpretabilidade que analisam esses mecanismos internos carecem de aplicações práticas além de intervenções em tempo de execução. Nós preenchemos essa lacuna ao introduzir uma nova abordagem de caixa branca que aproveita técnicas de interpretabilidade mecanicista para criar entradas adversárias práticas. Especificamente, primeiro identificamos subespaços de aceitação - conjuntos de vetores de características que não disparam os mecanismos de recusa do modelo - e, em seguida, usamos otimização baseada em gradiente para redirecionar embeddings de subespaços de recusa para subespaços de aceitação, efetivamente alcançando jailbreaks. Essa abordagem direcionada reduz significativamente o custo computacional, atingindo taxas de sucesso de ataque de 80-95\% em modelos de última geração, como Gemma2, Llama3.2 e Qwen2.5, em minutos ou até segundos, em comparação com técnicas existentes que frequentemente falham ou exigem horas de computação. Acreditamos que essa abordagem abre uma nova direção tanto para a pesquisa de ataques quanto para o desenvolvimento de defesas. Além disso, ela demonstra uma aplicação prática da interpretabilidade mecanicista onde outros métodos são menos eficientes, destacando sua utilidade. O código e os conjuntos de dados gerados estão disponíveis em https://github.com/Sckathach/subspace-rerouting.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary