Il diavolo dietro la maschera: Una vulnerabilità di sicurezza emergente nei modelli di diffusione LLM

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono recentemente emersi come una potente alternativa ai modelli linguistici autoregressivi, offrendo inferenze più veloci e una maggiore interattività grazie al decoding parallelo e alla modellazione bidirezionale. Tuttavia, nonostante le prestazioni solide nella generazione di codice e nel riempimento di testo, identifichiamo un problema di sicurezza fondamentale: i meccanismi di allineamento esistenti non riescono a proteggere i dLLM da prompt avversari basati su input mascherati e contestuali, esponendo nuove vulnerabilità. A tal fine, presentiamo DIJA, il primo studio sistematico e framework di attacco jailbreak che sfrutta le debolezze di sicurezza uniche dei dLLM. Nello specifico, il nostro DIJA costruisce prompt avversari intervallati con maschere e testo che sfruttano i meccanismi di generazione del testo dei dLLM, ovvero la modellazione bidirezionale e il decoding parallelo. La modellazione bidirezionale spinge il modello a produrre output contestualmente coerenti per le parti mascherate, anche quando dannose, mentre il decoding parallelo limita il filtraggio dinamico e il campionamento di rifiuto dei contenuti non sicuri da parte del modello. Ciò fa sì che i meccanismi di allineamento standard falliscano, consentendo completamenti dannosi nei dLLM allineati, anche quando comportamenti dannosi o istruzioni non sicure sono esposti direttamente nel prompt. Attraverso esperimenti completi, dimostriamo che DIJA supera significativamente i metodi jailbreak esistenti, esponendo una superficie di minaccia precedentemente trascurata nelle architetture dLLM. In particolare, il nostro metodo raggiunge fino al 100% di ASR basato su parole chiave su Dream-Instruct, superando il precedente baseline più forte, ReNeLLM, fino al 78,5% in ASR basato su valutatori su JailbreakBench e di 37,7 punti nel punteggio StrongREJECT, senza richiedere riscritture o occultamenti di contenuti dannosi nel prompt jailbreak. Le nostre scoperte sottolineano l'urgente necessità di ripensare l'allineamento della sicurezza in questa nuova classe di modelli linguistici. Il codice è disponibile all'indirizzo https://github.com/ZichenWen1/DIJA.

English

Diffusion-based large language models (dLLMs) have recently emerged as a powerful alternative to autoregressive LLMs, offering faster inference and greater interactivity via parallel decoding and bidirectional modeling. However, despite strong performance in code generation and text infilling, we identify a fundamental safety concern: existing alignment mechanisms fail to safeguard dLLMs against context-aware, masked-input adversarial prompts, exposing novel vulnerabilities. To this end, we present DIJA, the first systematic study and jailbreak attack framework that exploits unique safety weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial interleaved mask-text prompts that exploit the text generation mechanisms of dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional modeling drives the model to produce contextually consistent outputs for masked spans, even when harmful, while parallel decoding limits model dynamic filtering and rejection sampling of unsafe content. This causes standard alignment mechanisms to fail, enabling harmful completions in alignment-tuned dLLMs, even when harmful behaviors or unsafe instructions are directly exposed in the prompt. Through comprehensive experiments, we demonstrate that DIJA significantly outperforms existing jailbreak methods, exposing a previously overlooked threat surface in dLLM architectures. Notably, our method achieves up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of harmful content in the jailbreak prompt. Our findings underscore the urgent need for rethinking safety alignment in this emerging class of language models. Code is available at https://github.com/ZichenWen1/DIJA.

Il diavolo dietro la maschera: Una vulnerabilità di sicurezza emergente nei modelli di diffusione LLM

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

Abstract

Support