Universele Jailbreak-achtervoegsels zijn krachtige aandachtkapingen.

Samenvatting

We bestuderen suffix-gebaseerde jailbreaks – een krachtige familie van aanvallen tegen grote taalmodellen (LLMs) die adversariële suffixes optimaliseren om veiligheidsuitlijning te omzeilen. Met focus op de veelgebruikte fundamentele GCG-aanval (Zou et al., 2023), observeren we dat suffixes variëren in effectiviteit: sommige zijn aanzienlijk universeler – generaliserend naar veel ongeziene schadelijke instructies – dan andere. We tonen eerst aan dat de effectiviteit van GCG wordt aangedreven door een oppervlakkig, kritiek mechanisme, gebaseerd op de informatiestroom van het adversariële suffix naar de laatste chat-template tokens vóór generatie. Door de dominantie van dit mechanisme tijdens generatie te kwantificeren, ontdekken we dat GCG onregelmatig en agressief het contextualisatieproces kaapt. Cruciaal koppelen we deze kapingen aan het universaliteitsfenomeen, waarbij meer universele suffixes sterkere kapers zijn. Vervolgens tonen we aan dat deze inzichten praktische implicaties hebben: de universaliteit van GCG kan efficiënt worden verbeterd (tot vijf keer in sommige gevallen) zonder extra rekenkosten, en kan ook chirurgisch worden gemitigeerd, waarbij de aanvalssucces minstens wordt gehalveerd met minimaal nuttigheidsverlies. We geven onze code en data vrij op http://github.com/matanbt/interp-jailbreak.

English

We study suffix-based jailbreaksx2013a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universalx2013generalizing to many unseen harmful instructionsx2013than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to times5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.

Universele Jailbreak-achtervoegsels zijn krachtige aandachtkapingen.

Universal Jailbreak Suffixes Are Strong Attention Hijackers

Samenvatting

Support