Sufixos Universais de Jailbreak São Fortes Sequestradores de Atenção
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Autores: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Resumo
Estudamos jailbreaks baseados em sufixos – uma poderosa família de ataques contra modelos de linguagem de grande escala (LLMs) que otimizam sufixos adversariais para contornar o alinhamento de segurança. Focando no amplamente utilizado ataque GCG (Zou et al., 2023), observamos que os sufixos variam em eficácia: alguns são marcadamente mais universais – generalizando para muitas instruções prejudiciais não vistas – do que outros. Primeiro, mostramos que a eficácia do GCG é impulsionada por um mecanismo crítico e superficial, construído sobre o fluxo de informação do sufixo adversarial para os tokens finais do modelo de chat antes da geração. Quantificando a dominância desse mecanismo durante a geração, descobrimos que o GCG sequestra de forma irregular e agressiva o processo de contextualização. Crucialmente, relacionamos esse sequestro ao fenômeno da universalidade, com sufixos mais universais sendo sequestradores mais fortes. Posteriormente, mostramos que essas percepções têm implicações práticas: a universalidade do GCG pode ser eficientemente aprimorada (até 5 vezes em alguns casos) sem custo computacional adicional, e também pode ser mitigada cirurgicamente, reduzindo pelo menos pela metade o sucesso do ataque com perda mínima de utilidade. Disponibilizamos nosso código e dados em http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.