Le Diable derrière le masque : Une vulnérabilité de sécurité émergente des modèles de langage à diffusion
The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs
July 15, 2025
papers.authors: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI
papers.abstract
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) ont récemment émergé comme une alternative puissante aux LLMs autorégressifs, offrant une inférence plus rapide et une plus grande interactivité grâce au décodage parallèle et à la modélisation bidirectionnelle. Cependant, malgré des performances solides en génération de code et en remplissage de texte, nous identifions une préoccupation fondamentale en matière de sécurité : les mécanismes d'alignement existants ne parviennent pas à protéger les dLLMs contre les invites adverses masquées et contextuellement conscientes, exposant ainsi de nouvelles vulnérabilités. À cette fin, nous présentons DIJA, la première étude systématique et le cadre d'attaque de jailbreak qui exploitent les faiblesses de sécurité uniques des dLLMs. Plus précisément, notre proposition DIJA construit des invites adverses intercalées masque-texte qui exploitent les mécanismes de génération de texte des dLLMs, à savoir la modélisation bidirectionnelle et le décodage parallèle. La modélisation bidirectionnelle pousse le modèle à produire des sorties contextuellement cohérentes pour les segments masqués, même lorsqu'ils sont nuisibles, tandis que le décodage parallèle limite le filtrage dynamique et l'échantillonnage de rejet du contenu dangereux par le modèle. Cela entraîne l'échec des mécanismes d'alignement standard, permettant des complétions nuisibles dans les dLLMs alignés, même lorsque des comportements nuisibles ou des instructions dangereuses sont directement exposés dans l'invite. À travers des expériences approfondies, nous démontrons que DIJA surpasse significativement les méthodes de jailbreak existantes, exposant une surface de menace précédemment négligée dans les architectures de dLLMs. Notamment, notre méthode atteint jusqu'à 100 % de ASR basé sur des mots-clés sur Dream-Instruct, surpassant la base de référence la plus forte, ReNeLLM, jusqu'à 78,5 % en ASR basé sur l'évaluateur sur JailbreakBench et de 37,7 points en score StrongREJECT, tout en ne nécessitant aucune réécriture ou dissimulation de contenu nuisible dans l'invite de jailbreak. Nos résultats soulignent le besoin urgent de repenser l'alignement de la sécurité dans cette classe émergente de modèles de langage. Le code est disponible à l'adresse https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a
powerful alternative to autoregressive LLMs, offering faster inference and
greater interactivity via parallel decoding and bidirectional modeling.
However, despite strong performance in code generation and text infilling, we
identify a fundamental safety concern: existing alignment mechanisms fail to
safeguard dLLMs against context-aware, masked-input adversarial prompts,
exposing novel vulnerabilities. To this end, we present DIJA, the first
systematic study and jailbreak attack framework that exploits unique safety
weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial
interleaved mask-text prompts that exploit the text generation mechanisms of
dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional
modeling drives the model to produce contextually consistent outputs for masked
spans, even when harmful, while parallel decoding limits model dynamic
filtering and rejection sampling of unsafe content. This causes standard
alignment mechanisms to fail, enabling harmful completions in alignment-tuned
dLLMs, even when harmful behaviors or unsafe instructions are directly exposed
in the prompt. Through comprehensive experiments, we demonstrate that DIJA
significantly outperforms existing jailbreak methods, exposing a previously
overlooked threat surface in dLLM architectures. Notably, our method achieves
up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior
baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and
by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of
harmful content in the jailbreak prompt. Our findings underscore the urgent
need for rethinking safety alignment in this emerging class of language models.
Code is available at https://github.com/ZichenWen1/DIJA.