ChatPaper.aiChatPaper

Libertação para Libertar

Jailbreaking to Jailbreak

February 9, 2025
Autores: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
cs.AI

Resumo

O treinamento de recusa em Modelos de Linguagem de Grande Escala (LLMs) evita saídas prejudiciais, mas essa defesa ainda permanece vulnerável a jailbreaks automatizados e criados por humanos. Apresentamos uma nova abordagem de LLM-como-red-teamer, na qual um humano realiza um jailbreak em um LLM treinado para recusa, tornando-o disposto a realizar jailbreaks em si mesmo ou em outros LLMs. Referimo-nos aos LLMs que sofreram jailbreak como atacantes J_2, que podem avaliar sistematicamente modelos-alvo usando diversas estratégias de red teaming e melhorar seu desempenho por meio de aprendizado em contexto a partir de falhas anteriores. Nossos experimentos demonstram que Sonnet 3.5 e Gemini 1.5 pro superam outros LLMs como J_2, alcançando taxas de sucesso de ataque (ASRs) de 93,0% e 91,0%, respectivamente, contra GPT-4o (e resultados semelhantes em outros LLMs capazes) no Harmbench. Nosso trabalho não apenas introduz uma abordagem escalável para red teaming estratégico, inspirada em red teamers humanos, mas também destaca o jailbreaking-para-jailbreak como um modo de falha negligenciado da salvaguarda. Especificamente, um LLM pode contornar suas próprias salvaguardas empregando uma versão de si mesmo que sofreu jailbreak e está disposta a auxiliar em novos jailbreaks. Para evitar qualquer uso indevido direto com J_2, enquanto avançamos a pesquisa em segurança de IA, compartilhamos publicamente nossa metodologia, mantendo os detalhes específicos de prompt em sigilo.
English
Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can systematically evaluate target models using various red teaming strategies and improve its performance via in-context learning from the previous failures. Our experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs) respectively against GPT-4o (and similar results across other capable LLMs) on Harmbench. Our work not only introduces a scalable approach to strategic red teaming, drawing inspiration from human red teamers, but also highlights jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard. Specifically, an LLM can bypass its own safeguards by employing a jailbroken version of itself that is willing to assist in further jailbreaking. To prevent any direct misuse with J_2, while advancing research in AI safety, we publicly share our methodology while keeping specific prompting details private.

Summary

AI-Generated Summary

PDF42February 17, 2025