SEMA: Aprendizaje Simple pero Efectivo para Ataques de Jailbreak Multi-Turn
SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks
February 6, 2026
Autores: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao
cs.AI
Resumen
Los jailbreaks de múltiples turnos capturan el modelo de amenaza real para chatbots alineados con la seguridad, donde los ataques de un solo turno son meramente un caso especial. Sin embargo, los enfoques existentes fracasan ante la complejidad de exploración y la deriva de intención. Proponemos SEMA, un marco simple pero efectivo que entrena a un atacante de múltiples turnos sin depender de estrategias existentes o datos externos. SEMA comprende dos etapas. El autoajuste de prefijado permite despliegues utilizables mediante el ajuste fino en indicaciones adversarias de múltiples turnos, auto-generadas con un prefijo mínimo, que no son rechazadas y están bien estructuradas, estabilizando así el aprendizaje posterior. El aprendizaje por refuerzo con recompensa consciente de la deriva de intención entrena al atacante para generar indicaciones adversarias válidas de múltiples turnos mientras mantiene el mismo objetivo dañino. Anclamos la intención dañina en los jailbreaks de múltiples turnos mediante una recompensa consciente de la deriva que combina la alineación de la intención, el riesgo de cumplimiento y el nivel de detalle. Nuestro régimen de ataque de lazo abierto evita la dependencia de la retroalimentación de la víctima, unifica los escenarios de un solo y múltiples turnos, y reduce la complejidad de exploración. En múltiples conjuntos de datos, modelos víctima y evaluadores de jailbreak, nuestro método logra tasas de éxito de ataque (ASR) state-of-the-art (SOTA), superando a todos los baselines de un solo turno, a los baselines de múltiples turnos guionados manualmente y basados en plantillas, así como a nuestras variantes de SFT (Supervised Fine-Tuning) y DPO (Direct Preference Optimization). Por ejemplo, SEMA realiza un promedio de 80.1% ASR@1 en tres modelos víctima de código cerrado y abierto en AdvBench, un 33.9% por encima del SOTA. El enfoque es compacto, reproducible y se transfiere entre objetivos, proporcionando una prueba de estrés más fuerte y realista para la seguridad de los modelos de lenguaje grande (LLM) y permitiendo pruebas de penetración automáticas para exponer y localizar modos de fallo. Nuestro código está disponible en: https://github.com/fmmarkmq/SEMA.
English
Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.