SEMA : une méthode d'apprentissage simple mais efficace pour les attaques de contournement multi-tours

Résumé

Les jailbreaks multi-tours capturent le modèle de menace réel pour les chatbots alignés en sécurité, les attaques à tour unique n'étant qu'un cas particulier. Pourtant, les approches existantes échouent face à la complexité de l'exploration et à la dérive d'intention. Nous proposons SEMA, un cadre simple mais efficace qui entraîne un attaquant multi-tours sans s'appuyer sur des stratégies existantes ou des données externes. SEMA comprend deux étapes. L'auto-ajustement par préremplissage permet des déploiements utilisables en effectuant un fine-tuning sur des invites adverses multi-tours auto-générées avec un préfixe minimal, non réfutées et bien structurées, stabilisant ainsi l'apprentissage ultérieur. L'apprentissage par renforcement avec récompense sensible à la dérive d'intention entraîne l'attaquant à produire des invites adverses multi-tours valides tout en maintenant le même objectif nuisible. Nous ancrons l'intention nuisible dans les jailbreaks multi-tours via une récompense combinant l'alignement de l'intention, le risque de conformité et le niveau de détail. Notre régime d'attaque en boucle ouverte évite la dépendance aux retours de la victime, unifie les configurations à tour unique et multi-tours, et réduit la complexité de l'exploration. Sur plusieurs jeux de données, modèles victimes et évaluateurs de jailbreak, notre méthode atteint des taux de réussite d'attaque (ASR) à l'état de l'art, surpassant toutes les bases de référence à tour unique, les bases multi-tours manuelles et basées sur des modèles, ainsi que nos variantes SFT (Supervised Fine-Tuning) et DPO (Direct Preference Optimization). Par exemple, SEMA obtient un ASR@1 moyen de 80,1% sur trois modèles victimes open source et propriétaires avec AdvBench, soit 33,9% de plus que l'état de l'art. L'approche est compacte, reproductible et transférable entre cibles, fournissant un test de stress plus robuste et réaliste pour la sécurité des grands modèles de langage (LLM) et permettant un redteamning automatique pour exposer et localiser les modes de défaillance. Notre code est disponible à l'adresse : https://github.com/fmmarkmq/SEMA.

English

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA : une méthode d'apprentissage simple mais efficace pour les attaques de contournement multi-tours

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Résumé

Support