Universele Jailbreak-achtervoegsels zijn krachtige aandachtkapingen.
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Auteurs: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Samenvatting
We bestuderen suffix-gebaseerde jailbreaks – een krachtige familie van aanvallen tegen grote taalmodellen (LLMs) die adversariële suffixes optimaliseren om veiligheidsuitlijning te omzeilen. Met focus op de veelgebruikte fundamentele GCG-aanval (Zou et al., 2023), observeren we dat suffixes variëren in effectiviteit: sommige zijn aanzienlijk universeler – generaliserend naar veel ongeziene schadelijke instructies – dan andere. We tonen eerst aan dat de effectiviteit van GCG wordt aangedreven door een oppervlakkig, kritiek mechanisme, gebaseerd op de informatiestroom van het adversariële suffix naar de laatste chat-template tokens vóór generatie. Door de dominantie van dit mechanisme tijdens generatie te kwantificeren, ontdekken we dat GCG onregelmatig en agressief het contextualisatieproces kaapt. Cruciaal koppelen we deze kapingen aan het universaliteitsfenomeen, waarbij meer universele suffixes sterkere kapers zijn. Vervolgens tonen we aan dat deze inzichten praktische implicaties hebben: de universaliteit van GCG kan efficiënt worden verbeterd (tot vijf keer in sommige gevallen) zonder extra rekenkosten, en kan ook chirurgisch worden gemitigeerd, waarbij de aanvalssucces minstens wordt gehalveerd met minimaal nuttigheidsverlies. We geven onze code en data vrij op http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.