Los Sufijos Universales de Desbloqueo Son Fuertes Secuestradores de Atención
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Autores: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Resumen
Estudiamos los jailbreaks basados en sufijos, una potente familia de ataques contra modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) que optimizan sufijos adversarios para eludir la alineación de seguridad. Centrándonos en el ampliamente utilizado ataque GCG (Zou et al., 2023), observamos que los sufijos varían en eficacia: algunos son notablemente más universales, generalizando a muchas instrucciones dañinas no vistas, que otros. Primero demostramos que la efectividad de GCG está impulsada por un mecanismo crítico y superficial, basado en el flujo de información desde el sufijo adversario hasta los tokens finales de la plantilla de chat antes de la generación. Al cuantificar la dominancia de este mecanismo durante la generación, encontramos que GCG secuestra de manera irregular y agresiva el proceso de contextualización. Es crucial destacar que vinculamos este secuestro al fenómeno de universalidad, donde los sufijos más universales son secuestradores más fuertes. Posteriormente, mostramos que estas observaciones tienen implicaciones prácticas: la universalidad de GCG puede mejorarse eficientemente (hasta 5 veces en algunos casos) sin costos computacionales adicionales, y también puede mitigarse quirúrgicamente, reduciendo al menos a la mitad el éxito del ataque con una pérdida mínima de utilidad. Publicamos nuestro código y datos en http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.