ChatPaper.aiChatPaper

SEMA: Eenvoudig maar Effectief Leren voor Multi-Turn Jailbreak-aanvallen

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

February 6, 2026
Auteurs: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao
cs.AI

Samenvatting

Meerdraads jailbreaks vertegenwoordigen het werkelijke dreigingsmodel voor veiligheidsafgestemde chatbots, waarbij enkeldraads aanvallen slechts een speciaal geval zijn. Toch falen bestaande benaderingen door exploratiecomplexiteit en intent-drift. Wij stellen SEMA voor, een eenvoudig maar effectief raamwerk dat een meerdraads aanvaller traint zonder te vertrouwen op bestaande strategieën of externe data. SEMA bestaat uit twee fasen. *Prefilling self-tuning* maakt bruikbare rollouts mogelijk door fine-tuning op niet-weigerende, goed gestructureerde, meerdraads adversariële prompts die zelf gegenereerd worden met een minimale prefix, waardoor het daaropvolgende leren wordt gestabiliseerd. *Reinforcement learning* met een *intent-drift-aware* beloning traint de aanvaller om geldige meerdraads adversariële prompts te genereren terwijl hetzelfde schadelijke doel wordt aangehouden. Wij verankeren de schadelijke intentie in meerdraads jailbreaks via een *intent-drift-aware* beloning die intentie-alignering, compliancerisico en detailniveau combineert. Ons *open-loop* aanvalsregime vermijdt afhankelijkheid van slachtofferfeedback, verenigt enkel- en meerdraads instellingen, en reduceert exploratiecomplexiteit. Over meerdere datasets, slachtoffermodellen en jailbreak-beoordelaars behaalt onze methode state-of-the-art (SOTA) aanvalssuccespercentages (ASR), en presteert beter dan alle enkeldraads *baselines*, handmatig gescripte en template-gedreven meerdraads *baselines*, evenals onze SFT (*Supervised Fine-Tuning*) en DPO (*Direct Preference Optimization*) varianten. SEMA behaalt bijvoorbeeld een gemiddelde ASR@1 van 80.1% over drie *closed-source* en *open-source* slachtoffermodellen op AdvBench, 33.9% hoger dan SOTA. De aanpak is compact, reproduceerbaar en transferreert over doelen heen, wat een sterkere en realistischer stresstest biedt voor de veiligheid van grote taalmodellen (LLM) en automatisch *redteaming* mogelijk maakt om faalwijzen bloot te leggen en te lokaliseren. Onze code is beschikbaar op: https://github.com/fmmarkmq/SEMA.
English
Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.
PDF62March 16, 2026