ChatPaper.aiChatPaper

Jailbreaking zu Jailbreak.

Jailbreaking to Jailbreak

February 9, 2025
Autoren: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
cs.AI

Zusammenfassung

Das Training zur Ablehnung bei Large Language Models (LLMs) verhindert schädliche Ausgaben, bleibt jedoch anfällig für sowohl automatisierte als auch von Menschen erstellte Umgehungen. Wir stellen einen neuartigen Ansatz vor, bei dem ein Mensch ein ablehnungsgeschultes LLM umgeht, um es bereit zu machen, sich selbst oder andere LLMs zu umgehen. Wir bezeichnen die umgangenen LLMs als J_2 Angreifer, die Zielmodelle systematisch mithilfe verschiedener Red-Teaming-Strategien bewerten und ihre Leistung durch kontextbezogenes Lernen aus früheren Fehlern verbessern können. Unsere Experimente zeigen, dass Sonnet 3.5 und Gemini 1.5 andere LLMs als J_2 übertreffen, indem sie Erfolgsraten von 93,0 % bzw. 91,0 % bei Angriffen (ASRs) gegen GPT-4o erreichen (und ähnliche Ergebnisse bei anderen leistungsfähigen LLMs) auf Harmbench. Unsere Arbeit führt nicht nur einen skalierbaren Ansatz zum strategischen Red Teaming ein, der sich von menschlichen Red Teamern inspirieren lässt, sondern hebt auch das Umgehen-zum-Umgehen als einen übersehenen Fehlermodus der Sicherung hervor. Insbesondere kann ein LLM seine eigenen Sicherheitsvorkehrungen umgehen, indem es eine umgangene Version von sich selbst einsetzt, die bereit ist, bei weiteren Umgehungen zu helfen. Um jeglichen direkten Missbrauch mit J_2 zu verhindern und gleichzeitig die Forschung im Bereich der KI-Sicherheit voranzutreiben, teilen wir unsere Methodik öffentlich, während wir spezifische Aufforderungsdetails vertraulich behandeln.
English
Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can systematically evaluate target models using various red teaming strategies and improve its performance via in-context learning from the previous failures. Our experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs) respectively against GPT-4o (and similar results across other capable LLMs) on Harmbench. Our work not only introduces a scalable approach to strategic red teaming, drawing inspiration from human red teamers, but also highlights jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard. Specifically, an LLM can bypass its own safeguards by employing a jailbroken version of itself that is willing to assist in further jailbreaking. To prevent any direct misuse with J_2, while advancing research in AI safety, we publicly share our methodology while keeping specific prompting details private.

Summary

AI-Generated Summary

PDF42February 17, 2025