Jailbreaking de Débil a Fuerte en Modelos de Lenguaje de Gran Escala

Resumen

Aunque se han dedicado esfuerzos significativos a alinear los modelos de lenguaje de gran escala (LLMs), los informes de pruebas de resistencia sugieren que estos LLMs cuidadosamente alineados aún podrían ser vulnerables a ataques de "jailbreaking" mediante indicaciones adversarias, ajustes o decodificación. Al examinar la vulnerabilidad de jailbreaking en los LLMs alineados, observamos que las distribuciones de decodificación de los modelos vulnerados y los alineados difieren solo en las generaciones iniciales. Esta observación nos motiva a proponer el ataque de jailbreaking de "débil a fuerte", donde los adversarios pueden utilizar LLMs más pequeños no seguros/alimentados (por ejemplo, de 7B) para guiar el jailbreaking contra LLMs alineados significativamente más grandes (por ejemplo, de 70B). Para realizar el jailbreaking, solo se necesita decodificar adicionalmente dos LLMs más pequeños una vez, lo que implica un mínimo de cálculo y latencia en comparación con la decodificación de los LLMs más grandes. La eficacia de este ataque se demuestra mediante experimentos realizados en cinco modelos de tres organizaciones diferentes. Nuestro estudio revela una forma previamente inadvertida pero eficiente de realizar jailbreaking, exponiendo un problema de seguridad urgente que debe considerarse al alinear LLMs. Como un intento inicial, proponemos una estrategia de defensa para protegerse contra tales ataques, pero crear defensas más avanzadas sigue siendo un desafío. El código para replicar el método está disponible en https://github.com/XuandongZhao/weak-to-strong.

English

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

Jailbreaking de Débil a Fuerte en Modelos de Lenguaje de Gran Escala

Weak-to-Strong Jailbreaking on Large Language Models

Resumen

Support