SEMA: Простой, но эффективный метод обучения для многоходовых атак обхода ограничений

Аннотация

Многоходовые джейлбрейки отражают реальную модель угроз для чат-ботов с настроенной безопасностью, тогда как одноходовые атаки являются лишь частным случаем. Однако существующие подходы не справляются со сложностью исследования и дрейфом намерений. Мы предлагаем SEMA — простую, но эффективную框架, которая обучает многоходового атакующего без опоры на существующие стратегии или внешние данные. SEMA состоит из двух этапов. Предварительная самонастройка обеспечивает пригодные rollout'ы путем тонкой настройки на не-отказных, хорошо структурированных, многоходовых адверсарных промптах, которые само генерируются с минимальным префиксом, стабилизируя последующее обучение. Обучение с подкреплением с учетом дрейфа намерений тренирует атакующего на получение валидных многоходовых адверсарных промптов при сохранении той же вредоносной цели. Мы закрепляем вредоносное намерение в многоходовых джейлбрейках с помощью вознаграждения, учитывающего дрейф намерений, которое комбинирует выравнивание намерения, риск согласия и уровень детализации. Наш режим атаки с разомкнутым контуром избегает зависимости от обратной связи жертвы, унифицирует одно- и многоходовые сценарии и снижает сложность исследования. На множестве наборов данных, моделей-жертв и судей джейлбрейков наш метод достигает наилучших показателей успешности атак (ASR), превосходя все одноходовые базовые методы, ручные сценарии и шаблонные многоходовые базовые методы, а также наши варианты SFT и DPO. Например, SEMA демонстрирует в среднем 80.1% ASR@1 на трех закрытых и открытых моделях-жертвах на AdvBench, что на 33.9% выше state-of-the-art. Подход компактен, воспроизводим и переносится между целями, обеспечивая более строгий и реалистичный стресс-тест для безопасности больших языковых моделей и позволяя автоматизировать red teaming для выявления и локализации режимов сбоев. Наш код доступен по адресу: https://github.com/fmmarkmq/SEMA.

English

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average 80.1% ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA: Простой, но эффективный метод обучения для многоходовых атак обхода ограничений

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Аннотация

Support