Les suffixes de jailbreak universels sont de puissants détourneurs d'attention.
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Auteurs: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Résumé
Nous étudions les jailbreaks basés sur les suffixes – une famille puissante d'attaques contre les grands modèles de langage (LLMs) qui optimisent des suffixes adverses pour contourner les alignements de sécurité. En nous concentrant sur l'attaque GCG largement utilisée (Zou et al., 2023), nous observons que les suffixes varient en efficacité : certains sont nettement plus universels – généralisant à de nombreuses instructions nuisibles non vues – que d'autres. Nous montrons d'abord que l'efficacité de GCG est pilotée par un mécanisme critique et superficiel, basé sur le flux d'information du suffixe adverse vers les derniers tokens du modèle de chat avant la génération. En quantifiant la dominance de ce mécanisme pendant la génération, nous constatons que GCG détourne de manière irrégulière et agressive le processus de contextualisation. De manière cruciale, nous lions ce détournement au phénomène d'universalité, les suffixes plus universels étant des détourneurs plus puissants. Par la suite, nous montrons que ces insights ont des implications pratiques : l'universalité de GCG peut être efficacement améliorée (jusqu'à 5 fois dans certains cas) sans coût computationnel supplémentaire, et peut également être atténuée de manière chirurgicale, réduisant au moins de moitié le succès de l'attaque avec une perte minimale d'utilité. Nous publions notre code et nos données sur http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.