I suffissi universali per il jailbreak sono potenti dirottatori dell'attenzione.
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Autori: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Abstract
Studiamo i jailbreak basati su suffissi – una potente famiglia di attacchi contro i grandi modelli linguistici (LLM) che ottimizzano suffissi avversari per eludere l'allineamento di sicurezza. Concentrandoci sull'ampia-mente utilizzato attacco fondamentale GCG (Zou et al., 2023), osserviamo che i suffissi variano in efficacia: alcuni sono notevolmente più universali – generalizzando a molte istruzioni dannose non viste – rispetto ad altri. In primo luogo, dimostriamo che l'efficacia di GCG è guidata da un meccanismo critico e superficiale, basato sul flusso di informazioni dal suffisso avversario ai token finali del template di chat prima della generazione. Quantificando il dominio di questo meccanismo durante la generazione, troviamo che GCG dirotta in modo irregolare e aggressivo il processo di contestualizzazione. Fondamentalmente, colleghiamo il dirottamento al fenomeno dell'universalità, con suffissi più universali che si rivelano dirottatori più forti. Successivamente, mostriamo che queste intuizioni hanno implicazioni pratiche: l'universalità di GCG può essere efficientemente migliorata (fino a 5 volte in alcuni casi) senza costi computazionali aggiuntivi, e può anche essere mitigata in modo chirurgico, riducendo almeno della metà il successo dell'attacco con una minima perdita di utilità. Rilasciamo il nostro codice e i dati su http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.