Der Teufel hinter der Maske: Eine neu auftretende Sicherheitslücke von Diffusions-LLMs
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
July 15, 2025
papers.authors: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI
papers.abstract
Diffusionsbasierte große Sprachmodelle (dLLMs) sind kürzlich als leistungsstarke Alternative zu autoregressiven LLMs aufgetaucht, die durch parallele Dekodierung und bidirektionale Modellierung schnellere Inferenz und größere Interaktivität bieten. Trotz starker Leistungen in der Code-Generierung und Textauffüllung identifizieren wir jedoch ein grundlegendes Sicherheitsproblem: bestehende Alignment-Mechanismen schützen dLLMs nicht vor kontextbewussten, maskierten Eingabe-Adversarial-Prompts, was neue Schwachstellen offenlegt. Zu diesem Zweck präsentieren wir DIJA, die erste systematische Studie und Jailbreak-Angriffsframework, das einzigartige Sicherheitslücken von dLLMs ausnutzt. Konkret konstruiert unser vorgeschlagenes DIJA adversariale, verschachtelte Masken-Text-Prompts, die die Textgenerierungsmechanismen von dLLMs, d.h. bidirektionale Modellierung und parallele Dekodierung, ausnutzen. Die bidirektionale Modellierung veranlasst das Modell, kontextuell konsistente Ausgaben für maskierte Abschnitte zu erzeugen, selbst wenn diese schädlich sind, während die parallele Dekodierung die dynamische Filterung und Ablehnungsstichproben unsicherer Inhalte durch das Modell einschränkt. Dies führt dazu, dass Standard-Alignment-Mechanismen versagen und schädliche Vervollständigungen in alignment-optimierten dLLMs ermöglichen, selbst wenn schädliches Verhalten oder unsichere Anweisungen direkt im Prompt offengelegt werden. Durch umfassende Experimente zeigen wir, dass DIJA bestehende Jailbreak-Methoden deutlich übertrifft und eine bisher übersehene Bedrohungsfläche in dLLM-Architekturen aufdeckt. Insbesondere erreicht unsere Methode bis zu 100 % keyword-basierte ASR auf Dream-Instruct, übertrifft den stärksten bisherigen Baseline, ReNeLLM, um bis zu 78,5 % in evaluator-basierter ASR auf JailbreakBench und um 37,7 Punkte im StrongREJECT-Score, ohne dass schädliche Inhalte im Jailbreak-Prompt umgeschrieben oder versteckt werden müssen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit, das Sicherheits-Alignment in dieser aufstrebenden Klasse von Sprachmodellen neu zu überdenken. Der Code ist verfügbar unter https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a
powerful alternative to autoregressive LLMs, offering faster inference and
greater interactivity via parallel decoding and bidirectional modeling.
However, despite strong performance in code generation and text infilling, we
identify a fundamental safety concern: existing alignment mechanisms fail to
safeguard dLLMs against context-aware, masked-input adversarial prompts,
exposing novel vulnerabilities. To this end, we present DIJA, the first
systematic study and jailbreak attack framework that exploits unique safety
weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial
interleaved mask-text prompts that exploit the text generation mechanisms of
dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional
modeling drives the model to produce contextually consistent outputs for masked
spans, even when harmful, while parallel decoding limits model dynamic
filtering and rejection sampling of unsafe content. This causes standard
alignment mechanisms to fail, enabling harmful completions in alignment-tuned
dLLMs, even when harmful behaviors or unsafe instructions are directly exposed
in the prompt. Through comprehensive experiments, we demonstrate that DIJA
significantly outperforms existing jailbreak methods, exposing a previously
overlooked threat surface in dLLM architectures. Notably, our method achieves
up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior
baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and
by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of
harmful content in the jailbreak prompt. Our findings underscore the urgent
need for rethinking safety alignment in this emerging class of language models.
Code is available at https://github.com/ZichenWen1/DIJA.