ChatPaper.aiChatPaper

Quebra de Segurança de Fraco para Forte em Modelos de Linguagem de Grande Escala

Weak-to-Strong Jailbreaking on Large Language Models

January 30, 2024
Autores: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI

Resumo

Embora esforços significativos tenham sido dedicados ao alinhamento de grandes modelos de linguagem (LLMs), relatórios de red-teaming sugerem que esses LLMs cuidadosamente alinhados ainda podem ser "jailbroken" (desbloqueados) por meio de prompts adversariais, ajustes ou decodificação. Ao examinar a vulnerabilidade de jailbreaking em LLMs alinhados, observamos que as distribuições de decodificação de modelos jailbroken e alinhados diferem apenas nas gerações iniciais. Essa observação nos motiva a propor o ataque de jailbreaking "weak-to-strong", onde adversários podem utilizar LLMs menores não seguros/alinhados (por exemplo, 7B) para guiar o jailbreaking contra LLMs alinhados significativamente maiores (por exemplo, 70B). Para realizar o jailbreaking, basta decodificar adicionalmente dois LLMs menores uma vez, o que envolve computação e latência mínimas em comparação com a decodificação dos LLMs maiores. A eficácia desse ataque é demonstrada por meio de experimentos realizados em cinco modelos de três organizações diferentes. Nosso estudo revela uma maneira previamente não notada, porém eficiente, de realizar jailbreaking, expondo uma questão urgente de segurança que precisa ser considerada ao alinhar LLMs. Como uma tentativa inicial, propomos uma estratégia de defesa para proteger contra tais ataques, mas a criação de defesas mais avançadas permanece desafiadora. O código para replicar o método está disponível em https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong
PDF161December 15, 2024