Utilizzare l'interpretabilità meccanicistica per creare attacchi avversari contro i modelli linguistici di grandi dimensioni
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Autori: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Abstract
I metodi tradizionali white-box per creare perturbazioni avversarie contro i LLM si basano tipicamente solo sul calcolo del gradiente dal modello target, ignorando i meccanismi interni responsabili del successo o del fallimento dell'attacco. Al contrario, gli studi di interpretabilità che analizzano questi meccanismi interni mancano di applicazioni pratiche oltre agli interventi in tempo di esecuzione. Colmiamo questa lacuna introducendo un nuovo approccio white-box che sfrutta tecniche di interpretabilità meccanicistica per creare input avversari pratici. Nello specifico, identifichiamo prima i sottospazi di accettazione - insiemi di vettori di feature che non attivano i meccanismi di rifiuto del modello - poi utilizziamo l'ottimizzazione basata su gradiente per reindirizzare gli embedding dai sottospazi di rifiuto ai sottospazi di accettazione, ottenendo efficacemente jailbreak. Questo approccio mirato riduce significativamente il costo computazionale, raggiungendo tassi di successo dell'attacco dell'80-95\% su modelli all'avanguardia come Gemma2, Llama3.2 e Qwen2.5 in pochi minuti o addirittura secondi, rispetto alle tecniche esistenti che spesso falliscono o richiedono ore di calcolo. Crediamo che questo approccio apra una nuova direzione sia per la ricerca sugli attacchi che per lo sviluppo di difese. Inoltre, dimostra un'applicazione pratica dell'interpretabilità meccanicistica dove altri metodi sono meno efficienti, evidenziandone l'utilità. Il codice e i dataset generati sono disponibili su https://github.com/Sckathach/subspace-rerouting.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary