SEMA: Uma Abordagem Simples, porém Eficaz, para Ataques de Jailbreak em Múltiplos Turnos

Resumo

Os jailbreaks multirrodada capturam o modelo de ameaça real para chatbots alinhados com segurança, onde os ataques de rodada única são apenas um caso especial. No entanto, as abordagens existentes falham devido à complexidade de exploração e ao desvio de intenção. Propomos o SEMA, uma estrutura simples, porém eficaz, que treina um atacante multirrodada sem depender de estratégias existentes ou dados externos. O SEMA compreende dois estágios. O autodimensionamento de preenchimento prévio permite rollouts utilizáveis através do ajuste fino em prompts adversariais multirrodada, auto-gerados com um prefixo mínimo, bem estruturados e sem recusas, estabilizando assim a aprendizagem subsequente. O aprendizado por reforço com recompensa consciente do desvio de intenção treina o atacante para eliciar prompts adversariais multirrodada válidos, mantendo o mesmo objetivo malicioso. Ancoramos a intenção maliciosa em jailbreaks multirrodada por meio de uma recompensa consciente do desvio de intenção que combina alinhamento de intenção, risco de conformidade e nível de detalhe. Nosso regime de ataque de malha aberta evita a dependência do feedback da vítima, unifica configurações de rodada única e múltipla e reduz a complexidade de exploração. Em vários conjuntos de dados, modelos de vítima e juízes de jailbreak, nosso método alcança taxas de sucesso de ataque (ASR) state-of-the-art (SOTA), superando todas as linhas de base de rodada única, linhas de base multirrodada com script manual e baseadas em modelo, bem como nossas variantes SFT (Supervised Fine-Tuning) e DPO (Direct Preference Optimization). Por exemplo, o SEMA executa uma ASR@1 média de 80,1% em três modelos de vítima de código fechado e aberto no AdvBench, 33,9% acima do SOTA. A abordagem é compacta, reproduzível e transferível entre alvos, fornecendo um teste de estresse mais forte e realista para a segurança de modelos de linguagem grande (LLM) e permitindo o redteam automático para expor e localizar modos de falha. Nosso código está disponível em: https://github.com/fmmarkmq/SEMA.

English

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA: Uma Abordagem Simples, porém Eficaz, para Ataques de Jailbreak em Múltiplos Turnos

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Resumo

Support