Универсальные суффиксы для взлома являются мощными захватчиками внимания.
Universal Jailbreak Suffixes Are Strong Attention Hijackers
June 15, 2025
Авторы: Matan Ben-Tov, Mor Geva, Mahmood Sharif
cs.AI
Аннотация
Мы исследуем атаки на основе суффиксов — мощное семейство методов, направленных на обход механизмов безопасности в крупных языковых моделях (LLM) путем оптимизации враждебных суффиксов. Основываясь на широко используемой базовой атаке GCG (Zou et al., 2023), мы наблюдаем, что эффективность суффиксов варьируется: некоторые из них демонстрируют значительно более универсальный характер — обобщаясь на множество ранее не встречавшихся вредоносных инструкций — чем другие. Сначала мы показываем, что эффективность GCG обусловлена поверхностным, но критически важным механизмом, основанным на потоке информации от враждебного суффикса к финальным токенам шаблона чата перед генерацией. Количественно оценивая доминирование этого механизма в процессе генерации, мы обнаруживаем, что GCG нерегулярно и агрессивно захватывает процесс контекстуализации. Важно отметить, что мы связываем этот захват с феноменом универсальности: более универсальные суффиксы оказываются более сильными захватчиками. Впоследствии мы демонстрируем, что эти наблюдения имеют практическое значение: универсальность GCG может быть эффективно усилена (в некоторых случаях до 5 раз) без дополнительных вычислительных затрат, а также может быть хирургически смягчена, снижая успешность атаки как минимум вдвое с минимальной потерей полезности. Мы публикуем наш код и данные по адресу http://github.com/matanbt/interp-jailbreak.
English
We study suffix-based jailbreaksx2013a powerful family of attacks
against large language models (LLMs) that optimize adversarial suffixes to
circumvent safety alignment. Focusing on the widely used foundational GCG
attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some
markedly more universalx2013generalizing to many unseen harmful
instructionsx2013than others. We first show that GCG's
effectiveness is driven by a shallow, critical mechanism, built on the
information flow from the adversarial suffix to the final chat template tokens
before generation. Quantifying the dominance of this mechanism during
generation, we find GCG irregularly and aggressively hijacks the
contextualization process. Crucially, we tie hijacking to the universality
phenomenon, with more universal suffixes being stronger hijackers.
Subsequently, we show that these insights have practical implications: GCG
universality can be efficiently enhanced (up to times5 in some cases) at no
additional computational cost, and can also be surgically mitigated, at least
halving attack success with minimal utility loss. We release our code and data
at http://github.com/matanbt/interp-jailbreak.