Quebra de Segurança de Fraco para Forte em Modelos de Linguagem de Grande Escala
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Autores: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Resumo
Embora esforços significativos tenham sido dedicados ao alinhamento de grandes modelos de linguagem (LLMs), relatórios de red-teaming sugerem que esses LLMs cuidadosamente alinhados ainda podem ser "jailbroken" (desbloqueados) por meio de prompts adversariais, ajustes ou decodificação. Ao examinar a vulnerabilidade de jailbreaking em LLMs alinhados, observamos que as distribuições de decodificação de modelos jailbroken e alinhados diferem apenas nas gerações iniciais. Essa observação nos motiva a propor o ataque de jailbreaking "weak-to-strong", onde adversários podem utilizar LLMs menores não seguros/alinhados (por exemplo, 7B) para guiar o jailbreaking contra LLMs alinhados significativamente maiores (por exemplo, 70B). Para realizar o jailbreaking, basta decodificar adicionalmente dois LLMs menores uma vez, o que envolve computação e latência mínimas em comparação com a decodificação dos LLMs maiores. A eficácia desse ataque é demonstrada por meio de experimentos realizados em cinco modelos de três organizações diferentes. Nosso estudo revela uma maneira previamente não notada, porém eficiente, de realizar jailbreaking, expondo uma questão urgente de segurança que precisa ser considerada ao alinhar LLMs. Como uma tentativa inicial, propomos uma estratégia de defesa para proteger contra tais ataques, mas a criação de defesas mais avançadas permanece desafiadora. O código para replicar o método está disponível em https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong