Дьявол за маской: возникающая уязвимость безопасности в диффузионных языковых моделях
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
July 15, 2025
Авторы: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI
Аннотация
Диффузионные модели больших языковых моделей (dLLMs) недавно появились как мощная альтернатива авторегрессивным LLM, предлагая более быстрый вывод и большую интерактивность благодаря параллельному декодированию и двунаправленному моделированию. Однако, несмотря на высокую производительность в генерации кода и заполнении текста, мы выявили фундаментальную проблему безопасности: существующие механизмы выравнивания не способны защитить dLLM от контекстно-зависимых, маскированных вводов с вредоносными подсказками, что открывает новые уязвимости. В связи с этим мы представляем DIJA — первое систематическое исследование и фреймворк для атак jailbreak, который эксплуатирует уникальные слабости безопасности dLLM. В частности, наш метод DIJA создает вредоносные чередующиеся маскированные текстовые подсказки, которые используют механизмы генерации текста dLLM, такие как двунаправленное моделирование и параллельное декодирование. Двунаправленное моделирование заставляет модель генерировать контекстно-согласованные выходные данные для маскированных фрагментов, даже если они вредоносны, а параллельное декодирование ограничивает динамическую фильтрацию и отбор безопасного контента. Это приводит к сбою стандартных механизмов выравнивания, позволяя вредоносные завершения в настроенных на выравнивание dLLM, даже если вредоносное поведение или небезопасные инструкции явно присутствуют в подсказке. В ходе всесторонних экспериментов мы демонстрируем, что DIJA значительно превосходит существующие методы jailbreak, раскрывая ранее упущенную угрозу в архитектурах dLLM. В частности, наш метод достигает до 100% ASR на основе ключевых слов на Dream-Instruct, превосходя самый сильный предыдущий базовый метод ReNeLLM на 78,5% в ASR на основе оценок на JailbreakBench и на 37,7 баллов в StrongREJECT, при этом не требуя переписывания или сокрытия вредоносного контента в подсказке jailbreak. Наши результаты подчеркивают необходимость переосмысления безопасности выравнивания в этом новом классе языковых моделей. Код доступен по адресу https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a
powerful alternative to autoregressive LLMs, offering faster inference and
greater interactivity via parallel decoding and bidirectional modeling.
However, despite strong performance in code generation and text infilling, we
identify a fundamental safety concern: existing alignment mechanisms fail to
safeguard dLLMs against context-aware, masked-input adversarial prompts,
exposing novel vulnerabilities. To this end, we present DIJA, the first
systematic study and jailbreak attack framework that exploits unique safety
weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial
interleaved mask-text prompts that exploit the text generation mechanisms of
dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional
modeling drives the model to produce contextually consistent outputs for masked
spans, even when harmful, while parallel decoding limits model dynamic
filtering and rejection sampling of unsafe content. This causes standard
alignment mechanisms to fail, enabling harmful completions in alignment-tuned
dLLMs, even when harmful behaviors or unsafe instructions are directly exposed
in the prompt. Through comprehensive experiments, we demonstrate that DIJA
significantly outperforms existing jailbreak methods, exposing a previously
overlooked threat surface in dLLM architectures. Notably, our method achieves
up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior
baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and
by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of
harmful content in the jailbreak prompt. Our findings underscore the urgent
need for rethinking safety alignment in this emerging class of language models.
Code is available at https://github.com/ZichenWen1/DIJA.