I suffissi universali per il jailbreak sono potenti dirottatori dell'attenzione.

Abstract

Studiamo i jailbreak basati su suffissi – una potente famiglia di attacchi contro i grandi modelli linguistici (LLM) che ottimizzano suffissi avversari per eludere l'allineamento di sicurezza. Concentrandoci sull'ampia-mente utilizzato attacco fondamentale GCG (Zou et al., 2023), osserviamo che i suffissi variano in efficacia: alcuni sono notevolmente più universali – generalizzando a molte istruzioni dannose non viste – rispetto ad altri. In primo luogo, dimostriamo che l'efficacia di GCG è guidata da un meccanismo critico e superficiale, basato sul flusso di informazioni dal suffisso avversario ai token finali del template di chat prima della generazione. Quantificando il dominio di questo meccanismo durante la generazione, troviamo che GCG dirotta in modo irregolare e aggressivo il processo di contestualizzazione. Fondamentalmente, colleghiamo il dirottamento al fenomeno dell'universalità, con suffissi più universali che si rivelano dirottatori più forti. Successivamente, mostriamo che queste intuizioni hanno implicazioni pratiche: l'universalità di GCG può essere efficientemente migliorata (fino a 5 volte in alcuni casi) senza costi computazionali aggiuntivi, e può anche essere mitigata in modo chirurgico, riducendo almeno della metà il successo dell'attacco con una minima perdita di utilità. Rilasciamo il nostro codice e i dati su http://github.com/matanbt/interp-jailbreak.

English

We study suffix-based jailbreaksx2013a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universalx2013generalizing to many unseen harmful instructionsx2013than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to times5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.

I suffissi universali per il jailbreak sono potenti dirottatori dell'attenzione.

Universal Jailbreak Suffixes Are Strong Attention Hijackers

Abstract

Support