SEMA: Einfaches, aber effektives Lernen für mehrstufige Jailbreak-Angriffe

Zusammenfassung

Mehrfach-Jailbreaks bilden das tatsächliche Bedrohungsmodell für sicherheitsausgerichtete Chatbots ab, bei denen Einfach-Jailbreaks lediglich einen Spezialfall darstellen. Bisherige Ansätze scheitern jedoch an der Komplexität der Exploration und Intent-Drift. Wir schlagen SEMA vor, ein einfaches yet effektives Framework, das einen Mehrfach-Angreifer trainiert, ohne auf bestehende Strategien oder externe Daten angewiesen zu sein. SEMA umfasst zwei Stufen. Prefilling Self-Tuning ermöglicht brauchbare Rollouts durch Feinabstimmung an nicht-abweisenden, wohlstrukturierten, mehrfachen adversarischen Prompts, die selbst mit einem minimalen Präfix generiert werden, wodurch nachfolgendes Lernen stabilisiert wird. Verstärkungslernen mit Intent-Drift-bewusster Belohnung trainiert den Angreifer, gültige mehrfache adversarische Prompts zu erzeugen, während dasselbe schädliche Ziel beibehalten wird. Wir verankern schädliche Absicht in Mehrfach-Jailbreaks über eine Intent-Drift-bewusste Belohnung, die Intent-Ausrichtung, Compliance-Risiko und Detaillierungsgrad kombiniert. Unser Open-Loop-Angriffsregime vermeidet Abhängigkeit von Opfer-Feedback, vereinheitlicht Einfach- und Mehrfach-Settings und reduziert die Explorationskomplexität. Über mehrere Datensätze, Opfermodelle und Jailbreak-Judges hinweg erreicht unsere Methode state-of-the-art (SOTA) Angriffserfolgsraten (ASR) und übertrifft alle Einfach-Baselines, manuell geskriptete und template-gesteuerte Mehrfach-Baselines sowie unsere SFT- (Supervised Fine-Tuning) und DPO- (Direct Preference Optimization) Varianten. Beispielsweise erzielt SEMA durchschnittlich 80,1 % ASR@1 über drei Closed-Source- und Open-Source-Opfermodelle auf AdvBench, 33,9 % über SOTA. Der Ansatz ist kompakt, reproduzierbar und überträgt sich auf Ziele, bietet einen stärkeren und realistischeren Stresstest für die Sicherheit großer Sprachmodelle (LLM) und ermöglicht automatisches Redteaming, um Fehlermodi aufzudecken und zu lokalisieren. Unser Code ist verfügbar unter: https://github.com/fmmarkmq/SEMA.

English

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA: Einfaches, aber effektives Lernen für mehrstufige Jailbreak-Angriffe

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Zusammenfassung

Support