Los Sufijos Universales de Desbloqueo Son Fuertes Secuestradores de Atención

Resumen

Estudiamos los jailbreaks basados en sufijos, una potente familia de ataques contra modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) que optimizan sufijos adversarios para eludir la alineación de seguridad. Centrándonos en el ampliamente utilizado ataque GCG (Zou et al., 2023), observamos que los sufijos varían en eficacia: algunos son notablemente más universales, generalizando a muchas instrucciones dañinas no vistas, que otros. Primero demostramos que la efectividad de GCG está impulsada por un mecanismo crítico y superficial, basado en el flujo de información desde el sufijo adversario hasta los tokens finales de la plantilla de chat antes de la generación. Al cuantificar la dominancia de este mecanismo durante la generación, encontramos que GCG secuestra de manera irregular y agresiva el proceso de contextualización. Es crucial destacar que vinculamos este secuestro al fenómeno de universalidad, donde los sufijos más universales son secuestradores más fuertes. Posteriormente, mostramos que estas observaciones tienen implicaciones prácticas: la universalidad de GCG puede mejorarse eficientemente (hasta 5 veces en algunos casos) sin costos computacionales adicionales, y también puede mitigarse quirúrgicamente, reduciendo al menos a la mitad el éxito del ataque con una pérdida mínima de utilidad. Publicamos nuestro código y datos en http://github.com/matanbt/interp-jailbreak.

English

We study suffix-based jailbreaksx2013a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universalx2013generalizing to many unseen harmful instructionsx2013than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to times5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.