Sprechen Sie einfach: Herausforderung schädlicher Jailbreaks von LLMs durch einfache Interaktionen
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
February 6, 2025
Autoren: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI
Zusammenfassung
Trotz umfangreicher Bemühungen zur Sicherheitsausrichtung bleiben große Sprachmodelle (LLMs) anfällig für Jailbreak-Angriffe, die schädliches Verhalten hervorrufen. Während bestehende Studien hauptsächlich auf Angriffsmethoden fokussieren, die technisches Fachwissen erfordern, bleiben zwei entscheidende Fragen untererforscht: (1) Sind jailbroken Reaktionen tatsächlich nützlich, um durchschnittlichen Benutzern die Ausführung schädlicher Handlungen zu ermöglichen? (2) Existieren Sicherheitslücken in häufigeren, einfachen mensch-LLM-Interaktionen? In diesem Paper zeigen wir, dass LLM-Reaktionen schädliche Handlungen am effektivsten ermöglichen, wenn sie sowohl handlungsorientiert als auch informativ sind - zwei Eigenschaften, die leicht in mehrstufigen, mehrsprachigen Interaktionen hervorgerufen werden können. Basierend auf dieser Erkenntnis schlagen wir HarmScore vor, eine Jailbreak-Metrik, die misst, wie effektiv eine LLM-Reaktion schädliche Handlungen ermöglicht, und Speak Easy, ein einfaches mehrstufiges, mehrsprachiges Angriffsframework. Bemerkenswert ist, dass durch die Integration von Speak Easy in direkte Anfrage- und Jailbreak-Baselines eine durchschnittliche absolute Steigerung von 0,319 im Angriffserfolgsrate und 0,426 im HarmScore sowohl bei Open-Source als auch bei proprietären LLMs über vier Sicherheitsbenchmarks hinweg beobachtet wird. Unsere Arbeit offenbart eine kritische, aber oft übersehene Schwachstelle: Bösartige Benutzer können leicht gängige Interaktionsmuster für schädliche Absichten ausnutzen.
English
Despite extensive safety alignment efforts, large language models (LLMs)
remain vulnerable to jailbreak attacks that elicit harmful behavior. While
existing studies predominantly focus on attack methods that require technical
expertise, two critical questions remain underexplored: (1) Are jailbroken
responses truly useful in enabling average users to carry out harmful actions?
(2) Do safety vulnerabilities exist in more common, simple human-LLM
interactions? In this paper, we demonstrate that LLM responses most effectively
facilitate harmful actions when they are both actionable and informative--two
attributes easily elicited in multi-step, multilingual interactions. Using this
insight, we propose HarmScore, a jailbreak metric that measures how effectively
an LLM response enables harmful actions, and Speak Easy, a simple multi-step,
multilingual attack framework. Notably, by incorporating Speak Easy into direct
request and jailbreak baselines, we see an average absolute increase of 0.319
in Attack Success Rate and 0.426 in HarmScore in both open-source and
proprietary LLMs across four safety benchmarks. Our work reveals a critical yet
often overlooked vulnerability: Malicious users can easily exploit common
interaction patterns for harmful intentions.Summary
AI-Generated Summary