Mechanistische interpretatie gebruiken om adversariële aanvallen te ontwikkelen tegen grote taalmodelen
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Auteurs: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Samenvatting
Traditionele white-box methoden voor het creëren van adversariële verstoringen tegen LLM's (Large Language Models) vertrouwen doorgaans alleen op gradientberekeningen van het doelmodel, waarbij de interne mechanismen die verantwoordelijk zijn voor het slagen of falen van de aanval worden genegeerd. Aan de andere kant richten interpretatiestudies die deze interne mechanismen analyseren zich vaak op theoretische inzichten zonder praktische toepassingen buiten runtime-interventies. Wij overbruggen deze kloof door een nieuwe white-box aanpak te introduceren die gebruikmaakt van mechanistische interpretatietechnieken om praktische adversariële inputs te creëren. Specifiek identificeren we eerst acceptatiesubruimtes - verzamelingen van featurevectoren die de weigeringsmechanismen van het model niet activeren - en gebruiken vervolgens gradient-gebaseerde optimalisatie om embeddings van weigeringssubruimtes naar acceptatiesubruimtes om te leiden, waardoor jailbreaks effectief worden bereikt. Deze gerichte aanpak vermindert de rekenkosten aanzienlijk en behaalt aanvalsuccespercentages van 80-95\% op state-of-the-art modellen zoals Gemma2, Llama3.2 en Qwen2.5 binnen minuten of zelfs seconden, in tegenstelling tot bestaande technieken die vaak falen of uren rekenwerk vereisen. Wij geloven dat deze aanpak een nieuwe richting opent voor zowel aanvalsonderzoek als de ontwikkeling van verdedigingsmechanismen. Bovendien toont het een praktische toepassing van mechanistische interpretatie waar andere methoden minder efficiënt zijn, wat het nut ervan benadrukt. De code en gegenereerde datasets zijn beschikbaar op https://github.com/Sckathach/subspace-rerouting.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary