Universelle Jailbreak-Suffixe sind starke Aufmerksamkeitshijacker.
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Autoren: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Zusammenfassung
Wir untersuchen Suffix-basierte Jailbreaks – eine mächtige Familie von Angriffen auf große Sprachmodelle (LLMs), die adversarische Suffixe optimieren, um Sicherheitsausrichtungen zu umgehen. Mit Fokus auf den weit verbreiteten grundlegenden GCG-Angriff (Zou et al., 2023) beobachten wir, dass Suffixe in ihrer Wirksamkeit variieren: einige sind deutlich universeller – sie generalisieren auf viele ungesehene schädliche Anweisungen – als andere. Wir zeigen zunächst, dass die Wirksamkeit von GCG durch einen oberflächlichen, kritischen Mechanismus angetrieben wird, der auf dem Informationsfluss vom adversarischen Suffix zu den finalen Chat-Template-Token vor der Generierung basiert. Durch die Quantifizierung der Dominanz dieses Mechanismus während der Generierung stellen wir fest, dass GCG den Kontextualisierungsprozess unregelmäßig und aggressiv übernimmt. Entscheidend ist, dass wir diese Übernahme mit dem Universalitätsphänomen verknüpfen, wobei universellere Suffixe stärkere Übernehmer sind. Anschließend zeigen wir, dass diese Erkenntnisse praktische Implikationen haben: Die Universalität von GCG kann effizient gesteigert werden (in einigen Fällen bis zu fünfmal) ohne zusätzlichen Rechenaufwand und kann auch gezielt gemildert werden, wodurch der Angriffserfolg mindestens halbiert wird bei minimalem Nutzenverlust. Wir veröffentlichen unseren Code und unsere Daten unter http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.