Libertação para Libertar
Jailbreaking to Jailbreak
February 9, 2025
Autores: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
cs.AI
Resumo
O treinamento de recusa em Modelos de Linguagem de Grande Escala (LLMs) evita saídas prejudiciais, mas essa defesa ainda permanece vulnerável a jailbreaks automatizados e criados por humanos. Apresentamos uma nova abordagem de LLM-como-red-teamer, na qual um humano realiza um jailbreak em um LLM treinado para recusa, tornando-o disposto a realizar jailbreaks em si mesmo ou em outros LLMs. Referimo-nos aos LLMs que sofreram jailbreak como atacantes J_2, que podem avaliar sistematicamente modelos-alvo usando diversas estratégias de red teaming e melhorar seu desempenho por meio de aprendizado em contexto a partir de falhas anteriores. Nossos experimentos demonstram que Sonnet 3.5 e Gemini 1.5 pro superam outros LLMs como J_2, alcançando taxas de sucesso de ataque (ASRs) de 93,0% e 91,0%, respectivamente, contra GPT-4o (e resultados semelhantes em outros LLMs capazes) no Harmbench. Nosso trabalho não apenas introduz uma abordagem escalável para red teaming estratégico, inspirada em red teamers humanos, mas também destaca o jailbreaking-para-jailbreak como um modo de falha negligenciado da salvaguarda. Especificamente, um LLM pode contornar suas próprias salvaguardas empregando uma versão de si mesmo que sofreu jailbreak e está disposta a auxiliar em novos jailbreaks. Para evitar qualquer uso indevido direto com J_2, enquanto avançamos a pesquisa em segurança de IA, compartilhamos publicamente nossa metodologia, mantendo os detalhes específicos de prompt em sigilo.
English
Refusal training on Large Language Models (LLMs) prevents harmful outputs,
yet this defense remains vulnerable to both automated and human-crafted
jailbreaks. We present a novel LLM-as-red-teamer approach in which a human
jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or
other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can
systematically evaluate target models using various red teaming strategies and
improve its performance via in-context learning from the previous failures. Our
experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other
LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs)
respectively against GPT-4o (and similar results across other capable LLMs) on
Harmbench. Our work not only introduces a scalable approach to strategic red
teaming, drawing inspiration from human red teamers, but also highlights
jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard.
Specifically, an LLM can bypass its own safeguards by employing a jailbroken
version of itself that is willing to assist in further jailbreaking. To prevent
any direct misuse with J_2, while advancing research in AI safety, we
publicly share our methodology while keeping specific prompting details
private.Summary
AI-Generated Summary