Usando la interpretabilidad mecanicista para diseñar ataques adversarios contra modelos de lenguaje a gran escala
Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models
March 8, 2025
Autores: Thomas Winninger, Boussad Addad, Katarzyna Kapusta
cs.AI
Resumen
Los métodos tradicionales de caja blanca para crear perturbaciones adversas contra modelos de lenguaje grandes (LLMs) suelen basarse únicamente en el cálculo de gradientes del modelo objetivo, ignorando los mecanismos internos responsables del éxito o fracaso del ataque. Por el contrario, los estudios de interpretabilidad que analizan estos mecanismos internos carecen de aplicaciones prácticas más allá de las intervenciones en tiempo de ejecución. Cerramos esta brecha al introducir un novedoso enfoque de caja blanca que aprovecha técnicas de interpretabilidad mecanicista para crear entradas adversas prácticas. Específicamente, primero identificamos subespacios de aceptación: conjuntos de vectores de características que no activan los mecanismos de rechazo del modelo. Luego, utilizamos optimización basada en gradientes para redirigir las incrustaciones desde subespacios de rechazo hacia subespacios de aceptación, logrando efectivamente jailbreaks. Este enfoque dirigido reduce significativamente el costo computacional, alcanzando tasas de éxito de ataque del 80-95\% en modelos de última generación como Gemma2, Llama3.2 y Qwen2.5 en minutos o incluso segundos, en comparación con técnicas existentes que a menudo fallan o requieren horas de cálculo. Creemos que este enfoque abre una nueva dirección tanto para la investigación de ataques como para el desarrollo de defensas. Además, demuestra una aplicación práctica de la interpretabilidad mecanicista donde otros métodos son menos eficientes, lo que resalta su utilidad. El código y los conjuntos de datos generados están disponibles en https://github.com/Sckathach/subspace-rerouting.
English
Traditional white-box methods for creating adversarial perturbations against
LLMs typically rely only on gradient computation from the targeted model,
ignoring the internal mechanisms responsible for attack success or failure.
Conversely, interpretability studies that analyze these internal mechanisms
lack practical applications beyond runtime interventions. We bridge this gap by
introducing a novel white-box approach that leverages mechanistic
interpretability techniques to craft practical adversarial inputs.
Specifically, we first identify acceptance subspaces - sets of feature vectors
that do not trigger the model's refusal mechanisms - then use gradient-based
optimization to reroute embeddings from refusal subspaces to acceptance
subspaces, effectively achieving jailbreaks. This targeted approach
significantly reduces computation cost, achieving attack success rates of
80-95\% on state-of-the-art models including Gemma2, Llama3.2, and Qwen2.5
within minutes or even seconds, compared to existing techniques that often fail
or require hours of computation. We believe this approach opens a new direction
for both attack research and defense development. Furthermore, it showcases a
practical application of mechanistic interpretability where other methods are
less efficient, which highlights its utility. The code and generated datasets
are available at https://github.com/Sckathach/subspace-rerouting.Summary
AI-Generated Summary