SEMA: Apprendimento Semplice ma Efficace per Attacchi Jailbreak a Turni Multipli
SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks
February 6, 2026
Autori: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao
cs.AI
Abstract
I jailbreak multi-turn catturano il vero modello di minaccia per i chatbot allineati alla sicurezza, dove gli attacchi a turno singolo sono solo un caso speciale. Tuttavia, gli approcci esistenti falliscono a causa della complessità esplorativa e della deriva dell'intento. Proponiamo SEMA, un framework semplice ma efficace che addestra un attaccante multi-turn senza fare affidamento su strategie esistenti o dati esterni. SEMA comprende due fasi. L'autoregolazione del prefilling abilita rollout utilizzabili mediante fine-tuning su prompt avversariali multi-turn autogenerati, non rifiutanti e ben strutturati, partendo da un prefisso minimo, stabilizzando così l'apprendimento successivo. L'apprendimento per rinforzo con ricompensa consapevole della deriva dell'intento addestra l'attaccante a elicitare prompt avversariali multi-turn validi mantenendo lo stesso obiettivo dannoso. Ancoriamo l'intento dannoso nei jailbreak multi-turn tramite una ricompensa consapevole della deriva che combina allineamento dell'intento, rischio di compliance e livello di dettaglio. Il nostro regime di attacco ad anello aperto evita la dipendenza dal feedback della vittima, unifica le impostazioni a turno singolo e multi-turn e riduce la complessità esplorativa. Su più dataset, modelli vittima e giudici di jailbreak, il nostro metodo raggiunge tassi di successo d'attacco (ASR) allo stato dell'arte (SOTA), superando tutte le baseline a turno singolo, le baseline multi-turn scriptate manualmente e guidate da template, nonché le nostre varianti SFT (Supervised Fine-Tuning) e DPO (Direct Preference Optimization). Ad esempio, SEMA ottiene una media dell'80,1% ASR@1 su tre modelli vittima closed-source e open-source su AdvBench, superando lo SOTA del 33,9%. L'approccio è compatto, riproducibile e trasferibile tra target, fornendo uno stress test più forte e realistico per la sicurezza dei grandi modelli linguistici (LLM) e abilitando redteaming automatico per esporre e localizzare le modalità di fallimento. Il nostro codice è disponibile all'indirizzo: https://github.com/fmmarkmq/SEMA.
English
Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.