Jailbreaking de Débil a Fuerte en Modelos de Lenguaje de Gran Escala
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Autores: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Resumen
Aunque se han dedicado esfuerzos significativos a alinear los modelos de lenguaje de gran escala (LLMs), los informes de pruebas de resistencia sugieren que estos LLMs cuidadosamente alineados aún podrían ser vulnerables a ataques de "jailbreaking" mediante indicaciones adversarias, ajustes o decodificación. Al examinar la vulnerabilidad de jailbreaking en los LLMs alineados, observamos que las distribuciones de decodificación de los modelos vulnerados y los alineados difieren solo en las generaciones iniciales. Esta observación nos motiva a proponer el ataque de jailbreaking de "débil a fuerte", donde los adversarios pueden utilizar LLMs más pequeños no seguros/alimentados (por ejemplo, de 7B) para guiar el jailbreaking contra LLMs alineados significativamente más grandes (por ejemplo, de 70B). Para realizar el jailbreaking, solo se necesita decodificar adicionalmente dos LLMs más pequeños una vez, lo que implica un mínimo de cálculo y latencia en comparación con la decodificación de los LLMs más grandes. La eficacia de este ataque se demuestra mediante experimentos realizados en cinco modelos de tres organizaciones diferentes. Nuestro estudio revela una forma previamente inadvertida pero eficiente de realizar jailbreaking, exponiendo un problema de seguridad urgente que debe considerarse al alinear LLMs. Como un intento inicial, proponemos una estrategia de defensa para protegerse contra tales ataques, pero crear defensas más avanzadas sigue siendo un desafío. El código para replicar el método está disponible en https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong