SEMA: Eenvoudig maar Effectief Leren voor Multi-Turn Jailbreak-aanvallen

Samenvatting

Meerdraads jailbreaks vertegenwoordigen het werkelijke dreigingsmodel voor veiligheidsafgestemde chatbots, waarbij enkeldraads aanvallen slechts een speciaal geval zijn. Toch falen bestaande benaderingen door exploratiecomplexiteit en intent-drift. Wij stellen SEMA voor, een eenvoudig maar effectief raamwerk dat een meerdraads aanvaller traint zonder te vertrouwen op bestaande strategieën of externe data. SEMA bestaat uit twee fasen. *Prefilling self-tuning* maakt bruikbare rollouts mogelijk door fine-tuning op niet-weigerende, goed gestructureerde, meerdraads adversariële prompts die zelf gegenereerd worden met een minimale prefix, waardoor het daaropvolgende leren wordt gestabiliseerd. *Reinforcement learning* met een *intent-drift-aware* beloning traint de aanvaller om geldige meerdraads adversariële prompts te genereren terwijl hetzelfde schadelijke doel wordt aangehouden. Wij verankeren de schadelijke intentie in meerdraads jailbreaks via een *intent-drift-aware* beloning die intentie-alignering, compliancerisico en detailniveau combineert. Ons *open-loop* aanvalsregime vermijdt afhankelijkheid van slachtofferfeedback, verenigt enkel- en meerdraads instellingen, en reduceert exploratiecomplexiteit. Over meerdere datasets, slachtoffermodellen en jailbreak-beoordelaars behaalt onze methode state-of-the-art (SOTA) aanvalssuccespercentages (ASR), en presteert beter dan alle enkeldraads *baselines*, handmatig gescripte en template-gedreven meerdraads *baselines*, evenals onze SFT (*Supervised Fine-Tuning*) en DPO (*Direct Preference Optimization*) varianten. SEMA behaalt bijvoorbeeld een gemiddelde ASR@1 van 80.1% over drie *closed-source* en *open-source* slachtoffermodellen op AdvBench, 33.9% hoger dan SOTA. De aanpak is compact, reproduceerbaar en transferreert over doelen heen, wat een sterkere en realistischer stresstest biedt voor de veiligheid van grote taalmodellen (LLM) en automatisch *redteaming* mogelijk maakt om faalwijzen bloot te leggen en te lokaliseren. Onze code is beschikbaar op: https://github.com/fmmarkmq/SEMA.

English

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA: Eenvoudig maar Effectief Leren voor Multi-Turn Jailbreak-aanvallen

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Samenvatting

Support