ChatPaper.aiChatPaper

범용 탈옥 접미사는 강력한 주의력 탈취자입니다.

Universal Jailbreak Suffixes Are Strong Attention Hijackers

June 15, 2025
저자: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI

초록

우리는 대규모 언어 모델(LLMs)의 안전 정렬을 우회하기 위해 적대적 접미사를 최적화하는 강력한 공격 패밀리인 접미사 기반 제이브레이크(jailbreak)를 연구한다. 널리 사용되는 기초적인 GCG 공격(Zou et al., 2023)에 초점을 맞추어, 우리는 접미사들이 효능에 있어 차이를 보인다는 것을 관찰했다: 일부 접미사는 다른 것들보다 훨씬 더 보편적이며, 많은 보이지 않는 유해한 명령어들에 일반화된다. 우리는 먼저 GCG의 효과가 생성 전 최종 채팅 템플릿 토큰들로의 적대적 접미사에서의 정보 흐름에 기반한 얕지만 중요한 메커니즘에 의해 주도된다는 것을 보여준다. 생성 과정에서 이 메커니즘의 지배력을 정량화함으로써, 우리는 GCG가 문맥화 과정을 불규칙적이고 공격적으로 탈취한다는 것을 발견했다. 결정적으로, 우리는 이러한 탈취 현상을 보편성 현상과 연결지어, 더 보편적인 접미사일수록 더 강력한 탈취자임을 보였다. 이후, 우리는 이러한 통찰이 실질적인 함의를 가짐을 보여준다: GCG의 보편성은 추가적인 계산 비용 없이 효율적으로 향상될 수 있으며(일부 경우 최대 5배), 또한 수술적으로 완화될 수 있어 공격 성공률을 최소한 절반으로 줄이면서도 유틸리티 손실을 최소화할 수 있다. 우리는 코드와 데이터를 http://github.com/matanbt/interp-jailbreak에서 공개한다.
English
We study suffix-based jailbreaksx2013a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universalx2013generalizing to many unseen harmful instructionsx2013than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to times5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.
PDF32June 18, 2025