Jailbreaking pour Jailbreak

papers.abstract

L'entraînement au refus sur les modèles de langage de grande taille (LLMs) empêche les sorties nuisibles, mais cette défense reste vulnérable aux contournements automatisés et conçus par des humains. Nous présentons une nouvelle approche LLM-comme-red-teamer dans laquelle un humain contourne un LLM entraîné au refus pour le rendre disposé à contourner lui-même ou d'autres LLMs. Nous appelons les LLMs contournés des attaquants J_2, qui peuvent évaluer systématiquement les modèles cibles en utilisant diverses stratégies de red teaming et améliorer leurs performances via l'apprentissage en contexte à partir des échecs précédents. Nos expériences montrent que Sonnet 3.5 et Gemini 1.5 pro surpassent les autres LLMs en tant que J_2, atteignant respectivement des taux de réussite d'attaque (ASR) de 93,0 % et 91,0 % contre GPT-4o (et des résultats similaires sur d'autres LLMs performants) sur Harmbench. Notre travail introduit non seulement une approche évolutive au red teaming stratégique, s'inspirant des red teamers humains, mais met également en lumière le contournement-pour-contournement comme un mode d'échec négligé des protections. Plus précisément, un LLM peut contourner ses propres protections en utilisant une version contournée de lui-même qui est disposée à aider à un contournement supplémentaire. Pour prévenir tout usage abusif direct avec J_2, tout en faisant progresser la recherche en sécurité de l'IA, nous partageons publiquement notre méthodologie tout en gardant privés les détails spécifiques des incitations.

English

Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can systematically evaluate target models using various red teaming strategies and improve its performance via in-context learning from the previous failures. Our experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs) respectively against GPT-4o (and similar results across other capable LLMs) on Harmbench. Our work not only introduces a scalable approach to strategic red teaming, drawing inspiration from human red teamers, but also highlights jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard. Specifically, an LLM can bypass its own safeguards by employing a jailbroken version of itself that is willing to assist in further jailbreaking. To prevent any direct misuse with J_2, while advancing research in AI safety, we publicly share our methodology while keeping specific prompting details private.

Jailbreaking pour Jailbreak

Jailbreaking to Jailbreak

papers.abstract

Support