Jailbreaking pour Jailbreak
Jailbreaking to Jailbreak
February 9, 2025
Auteurs: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
cs.AI
Résumé
L'entraînement au refus sur les modèles de langage de grande taille (LLMs) empêche les sorties nuisibles, mais cette défense reste vulnérable aux contournements automatisés et conçus par des humains. Nous présentons une nouvelle approche LLM-comme-red-teamer dans laquelle un humain contourne un LLM entraîné au refus pour le rendre disposé à contourner lui-même ou d'autres LLMs. Nous appelons les LLMs contournés des attaquants J_2, qui peuvent évaluer systématiquement les modèles cibles en utilisant diverses stratégies de red teaming et améliorer leurs performances via l'apprentissage en contexte à partir des échecs précédents. Nos expériences montrent que Sonnet 3.5 et Gemini 1.5 pro surpassent les autres LLMs en tant que J_2, atteignant respectivement des taux de réussite d'attaque (ASR) de 93,0 % et 91,0 % contre GPT-4o (et des résultats similaires sur d'autres LLMs performants) sur Harmbench. Notre travail introduit non seulement une approche évolutive au red teaming stratégique, s'inspirant des red teamers humains, mais met également en lumière le contournement-pour-contournement comme un mode d'échec négligé des protections. Plus précisément, un LLM peut contourner ses propres protections en utilisant une version contournée de lui-même qui est disposée à aider à un contournement supplémentaire. Pour prévenir tout usage abusif direct avec J_2, tout en faisant progresser la recherche en sécurité de l'IA, nous partageons publiquement notre méthodologie tout en gardant privés les détails spécifiques des incitations.
English
Refusal training on Large Language Models (LLMs) prevents harmful outputs,
yet this defense remains vulnerable to both automated and human-crafted
jailbreaks. We present a novel LLM-as-red-teamer approach in which a human
jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or
other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can
systematically evaluate target models using various red teaming strategies and
improve its performance via in-context learning from the previous failures. Our
experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other
LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs)
respectively against GPT-4o (and similar results across other capable LLMs) on
Harmbench. Our work not only introduces a scalable approach to strategic red
teaming, drawing inspiration from human red teamers, but also highlights
jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard.
Specifically, an LLM can bypass its own safeguards by employing a jailbroken
version of itself that is willing to assist in further jailbreaking. To prevent
any direct misuse with J_2, while advancing research in AI safety, we
publicly share our methodology while keeping specific prompting details
private.Summary
AI-Generated Summary