Universelle Jailbreak-Suffixe sind starke Aufmerksamkeitshijacker.

Zusammenfassung

Wir untersuchen Suffix-basierte Jailbreaks – eine mächtige Familie von Angriffen auf große Sprachmodelle (LLMs), die adversarische Suffixe optimieren, um Sicherheitsausrichtungen zu umgehen. Mit Fokus auf den weit verbreiteten grundlegenden GCG-Angriff (Zou et al., 2023) beobachten wir, dass Suffixe in ihrer Wirksamkeit variieren: einige sind deutlich universeller – sie generalisieren auf viele ungesehene schädliche Anweisungen – als andere. Wir zeigen zunächst, dass die Wirksamkeit von GCG durch einen oberflächlichen, kritischen Mechanismus angetrieben wird, der auf dem Informationsfluss vom adversarischen Suffix zu den finalen Chat-Template-Token vor der Generierung basiert. Durch die Quantifizierung der Dominanz dieses Mechanismus während der Generierung stellen wir fest, dass GCG den Kontextualisierungsprozess unregelmäßig und aggressiv übernimmt. Entscheidend ist, dass wir diese Übernahme mit dem Universalitätsphänomen verknüpfen, wobei universellere Suffixe stärkere Übernehmer sind. Anschließend zeigen wir, dass diese Erkenntnisse praktische Implikationen haben: Die Universalität von GCG kann effizient gesteigert werden (in einigen Fällen bis zu fünfmal) ohne zusätzlichen Rechenaufwand und kann auch gezielt gemildert werden, wodurch der Angriffserfolg mindestens halbiert wird bei minimalem Nutzenverlust. Wir veröffentlichen unseren Code und unsere Daten unter http://github.com/matanbt/interp-jailbreak.

English

We study suffix-based jailbreaksx2013a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universalx2013generalizing to many unseen harmful instructionsx2013than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to times5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.