가면 뒤의 악마: 확산 언어 모델의 새로운 안전성 취약점
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
July 15, 2025
저자: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI
초록
확산 기반 대형 언어 모델(dLLM)은 최근 병렬 디코딩과 양방향 모델링을 통해 더 빠른 추론과 높은 상호작용성을 제공하며, 자기회귀적 LLM의 강력한 대안으로 부상했습니다. 그러나 코드 생성과 텍스트 채우기에서 강력한 성능을 보임에도 불구하고, 우리는 근본적인 안전 문제를 확인했습니다: 기존의 정렬 메커니즘은 맥락을 인지하는 마스크 입력 적대적 프롬프트에 대해 dLLM을 보호하지 못해 새로운 취약점을 노출시킵니다. 이를 위해, 우리는 dLLM의 고유한 안전 취약점을 활용한 첫 번째 체계적인 연구이자 탈옥 공격 프레임워크인 DIJA를 제안합니다. 구체적으로, 우리가 제안한 DIJA는 dLLM의 텍스트 생성 메커니즘, 즉 양방향 모델링과 병렬 디코딩을 활용하는 적대적 교차 마스크-텍스트 프롬프트를 구성합니다. 양방향 모델링은 모델이 유해한 경우에도 마스크된 부분에 대해 맥락적으로 일관된 출력을 생성하도록 유도하며, 병렬 디코딩은 모델의 동적 필터링과 안전하지 않은 콘텐츠에 대한 거부 샘플링을 제한합니다. 이로 인해 표준 정렬 메커니즘이 실패하여, 프롬프트에서 직접 유해한 행동이나 안전하지 않은 지시가 노출된 경우에도 정렬된 dLLM에서 유해한 완성이 가능해집니다. 포괄적인 실험을 통해, 우리는 DIJA가 기존의 탈옥 방법을 크게 능가하며, dLLM 아키텍처에서 이전에 간과된 위협 표면을 드러냄을 입증했습니다. 특히, 우리의 방법은 Dream-Instruct에서 키워드 기반 ASR(Attack Success Rate) 최대 100%를 달성했으며, JailbreakBench에서 평가자 기반 ASR 기준으로 가장 강력한 기존 베이스라인인 ReNeLLM을 최대 78.5% 능가했고, StrongREJECT 점수에서 37.7점 높은 성능을 보였습니다. 이는 탈옥 프롬프트에서 유해한 콘텐츠를 재작성하거나 숨길 필요 없이 달성되었습니다. 우리의 연구 결과는 이 새로운 유형의 언어 모델에서 안전 정렬을 재고할 필요성이 시급함을 강조합니다. 코드는 https://github.com/ZichenWen1/DIJA에서 확인할 수 있습니다.
English
Diffusion-based large language models (dLLMs) have recently emerged as a
powerful alternative to autoregressive LLMs, offering faster inference and
greater interactivity via parallel decoding and bidirectional modeling.
However, despite strong performance in code generation and text infilling, we
identify a fundamental safety concern: existing alignment mechanisms fail to
safeguard dLLMs against context-aware, masked-input adversarial prompts,
exposing novel vulnerabilities. To this end, we present DIJA, the first
systematic study and jailbreak attack framework that exploits unique safety
weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial
interleaved mask-text prompts that exploit the text generation mechanisms of
dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional
modeling drives the model to produce contextually consistent outputs for masked
spans, even when harmful, while parallel decoding limits model dynamic
filtering and rejection sampling of unsafe content. This causes standard
alignment mechanisms to fail, enabling harmful completions in alignment-tuned
dLLMs, even when harmful behaviors or unsafe instructions are directly exposed
in the prompt. Through comprehensive experiments, we demonstrate that DIJA
significantly outperforms existing jailbreak methods, exposing a previously
overlooked threat surface in dLLM architectures. Notably, our method achieves
up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior
baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and
by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of
harmful content in the jailbreak prompt. Our findings underscore the urgent
need for rethinking safety alignment in this emerging class of language models.
Code is available at https://github.com/ZichenWen1/DIJA.