De duivel achter het masker: Een opkomende veiligheidskwetsbaarheid van Diffusion LLM's
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
July 15, 2025
Auteurs: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI
Samenvatting
Diffusie-gebaseerde grote taalmodellen (dLLMs) zijn recent naar voren gekomen als een krachtig alternatief voor autoregressieve LLMs, waarbij ze snellere inferentie en grotere interactiviteit bieden via parallelle decodering en bidirectionele modellering. Ondanks sterke prestaties in codegeneratie en tekstinvulling, identificeren we echter een fundamenteel veiligheidsprobleem: bestaande afstemmingsmechanismen slagen er niet in om dLLMs te beschermen tegen contextbewuste, gemaskeerde invoer van adversariële prompts, wat nieuwe kwetsbaarheden blootlegt. Daarom presenteren we DIJA, de eerste systematische studie en jailbreak-aanvalsframework dat unieke veiligheidszwaktes van dLLMs uitbuit. Specifiek construeert ons voorgestelde DIJA adversariële prompts met afgewisselde masker-tekst die de tekstgeneratiemechanismen van dLLMs uitbuiten, namelijk bidirectionele modellering en parallelle decodering. Bidirectionele modellering drijft het model aan om contextueel consistente uitvoer te produceren voor gemaskeerde segmenten, zelfs wanneer deze schadelijk zijn, terwijl parallelle decodering de dynamische filtering en afwijzingssteekproeven van onveilige inhoud beperkt. Hierdoor falen standaard afstemmingsmechanismen, wat schadelijke aanvullingen mogelijk maakt in afgestemde dLLMs, zelfs wanneer schadelijk gedrag of onveilige instructies direct in de prompt worden blootgesteld. Door middel van uitgebreide experimenten tonen we aan dat DIJA aanzienlijk beter presteert dan bestaande jailbreak-methoden, waarbij een voorheen over het hoofd gezien dreigingsoppervlak in dLLM-architecturen wordt blootgelegd. Opmerkelijk is dat onze methode tot 100% keyword-gebaseerde ASR bereikt op Dream-Instruct, wat de sterkste eerdere baseline, ReNeLLM, overtreft met tot 78,5% in evaluator-gebaseerde ASR op JailbreakBench en met 37,7 punten in StrongREJECT-score, zonder dat schadelijke inhoud in de jailbreak-prompt herschreven of verborgen hoeft te worden. Onze bevindingen onderstrepen de dringende noodzaak om de veiligheidsafstemming in deze opkomende klasse van taalmodellen te heroverwegen. Code is beschikbaar op https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a
powerful alternative to autoregressive LLMs, offering faster inference and
greater interactivity via parallel decoding and bidirectional modeling.
However, despite strong performance in code generation and text infilling, we
identify a fundamental safety concern: existing alignment mechanisms fail to
safeguard dLLMs against context-aware, masked-input adversarial prompts,
exposing novel vulnerabilities. To this end, we present DIJA, the first
systematic study and jailbreak attack framework that exploits unique safety
weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial
interleaved mask-text prompts that exploit the text generation mechanisms of
dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional
modeling drives the model to produce contextually consistent outputs for masked
spans, even when harmful, while parallel decoding limits model dynamic
filtering and rejection sampling of unsafe content. This causes standard
alignment mechanisms to fail, enabling harmful completions in alignment-tuned
dLLMs, even when harmful behaviors or unsafe instructions are directly exposed
in the prompt. Through comprehensive experiments, we demonstrate that DIJA
significantly outperforms existing jailbreak methods, exposing a previously
overlooked threat surface in dLLM architectures. Notably, our method achieves
up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior
baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and
by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of
harmful content in the jailbreak prompt. Our findings underscore the urgent
need for rethinking safety alignment in this emerging class of language models.
Code is available at https://github.com/ZichenWen1/DIJA.