Utiliser l'interprétabilité mécaniste pour concevoir des attaques adverses contre les grands modèles de langage

papers.abstract

Les méthodes traditionnelles de type "boîte blanche" pour créer des perturbations adverses contre les LLM reposent généralement uniquement sur le calcul du gradient du modèle ciblé, ignorant les mécanismes internes responsables du succès ou de l'échec de l'attaque. À l'inverse, les études d'interprétabilité qui analysent ces mécanismes internes manquent d'applications pratiques au-delà des interventions en temps réel. Nous comblons cet écart en introduisant une nouvelle approche de type boîte blanche qui exploite les techniques d'interprétabilité mécaniste pour concevoir des entrées adverses pratiques. Plus précisément, nous identifions d'abord des sous-espaces d'acceptation - des ensembles de vecteurs de caractéristiques qui ne déclenchent pas les mécanismes de refus du modèle - puis utilisons une optimisation basée sur le gradient pour rediriger les embeddings des sous-espaces de refus vers les sous-espaces d'acceptation, réalisant ainsi efficacement des jailbreaks. Cette approche ciblée réduit considérablement les coûts de calcul, atteignant des taux de réussite d'attaque de 80 à 95 % sur des modèles de pointe tels que Gemma2, Llama3.2 et Qwen2.5 en quelques minutes voire secondes, comparé aux techniques existantes qui échouent souvent ou nécessitent des heures de calcul. Nous pensons que cette approche ouvre une nouvelle direction pour la recherche en attaque et le développement de défenses. De plus, elle démontre une application pratique de l'interprétabilité mécaniste là où d'autres méthodes sont moins efficaces, ce qui met en avant son utilité. Le code et les jeux de données générés sont disponibles à l'adresse https://github.com/Sckathach/subspace-rerouting.

English

Traditional white-box methods for creating adversarial perturbations against LLMs typically rely only on gradient computation from the targeted model, ignoring the internal mechanisms responsible for attack success or failure. Conversely, interpretability studies that analyze these internal mechanisms lack practical applications beyond runtime interventions. We bridge this gap by introducing a novel white-box approach that leverages mechanistic interpretability techniques to craft practical adversarial inputs. Specifically, we first identify acceptance subspaces - sets of feature vectors that do not trigger the model's refusal mechanisms - then use gradient-based optimization to reroute embeddings from refusal subspaces to acceptance subspaces, effectively achieving jailbreaks. This targeted approach significantly reduces computation cost, achieving attack success rates of 80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5 within minutes or even seconds, compared to existing techniques that often fail or require hours of computation. We believe this approach opens a new direction for both attack research and defense development. Furthermore, it showcases a practical application of mechanistic interpretability where other methods are less efficient, which highlights its utility. The code and generated datasets are available at https://github.com/Sckathach/subspace-rerouting.

Utiliser l'interprétabilité mécaniste pour concevoir des attaques adverses contre les grands modèles de langage

Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models

papers.abstract

Support