ChatPaper.aiChatPaper

El diablo detrás de la máscara: Una vulnerabilidad de seguridad emergente en los modelos de lenguaje de difusión (LLMs)

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

July 15, 2025
Autores: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI

Resumen

Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés) han surgido recientemente como una alternativa poderosa a los LLMs autorregresivos, ofreciendo inferencia más rápida y mayor interactividad mediante decodificación paralela y modelado bidireccional. Sin embargo, a pesar de su fuerte rendimiento en la generación de código y el relleno de texto, identificamos una preocupación fundamental de seguridad: los mecanismos de alineación existentes no protegen adecuadamente a los dLLMs contra indicaciones adversarias enmascaradas y conscientes del contexto, exponiendo nuevas vulnerabilidades. Con este fin, presentamos DIJA, el primer estudio sistemático y marco de ataque de jailbreak que explota las debilidades de seguridad únicas de los dLLMs. Específicamente, nuestro DIJA propuesto construye indicaciones adversarias intercaladas de texto y máscaras que explotan los mecanismos de generación de texto de los dLLMs, es decir, el modelado bidireccional y la decodificación paralela. El modelado bidireccional impulsa al modelo a producir salidas contextualmente consistentes para los espacios enmascarados, incluso cuando son dañinas, mientras que la decodificación paralela limita el filtrado dinámico y el muestreo de rechazo de contenido inseguro por parte del modelo. Esto hace que los mecanismos de alineación estándar fallen, permitiendo completaciones dañinas en dLLMs ajustados para alineación, incluso cuando comportamientos dañinos o instrucciones inseguras se exponen directamente en la indicación. A través de experimentos exhaustivos, demostramos que DIJA supera significativamente los métodos de jailbreak existentes, exponiendo una superficie de amenaza previamente pasada por alto en las arquitecturas de dLLMs. Notablemente, nuestro método alcanza hasta un 100% de ASR basado en palabras clave en Dream-Instruct, superando al mejor método previo, ReNeLLM, en hasta un 78.5% en ASR basado en evaluadores en JailbreakBench y en 37.7 puntos en la puntuación StrongREJECT, sin requerir reescritura u ocultación de contenido dañino en la indicación de jailbreak. Nuestros hallazgos subrayan la necesidad urgente de reconsiderar la alineación de seguridad en esta clase emergente de modelos de lenguaje. El código está disponible en https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a powerful alternative to autoregressive LLMs, offering faster inference and greater interactivity via parallel decoding and bidirectional modeling. However, despite strong performance in code generation and text infilling, we identify a fundamental safety concern: existing alignment mechanisms fail to safeguard dLLMs against context-aware, masked-input adversarial prompts, exposing novel vulnerabilities. To this end, we present DIJA, the first systematic study and jailbreak attack framework that exploits unique safety weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial interleaved mask-text prompts that exploit the text generation mechanisms of dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional modeling drives the model to produce contextually consistent outputs for masked spans, even when harmful, while parallel decoding limits model dynamic filtering and rejection sampling of unsafe content. This causes standard alignment mechanisms to fail, enabling harmful completions in alignment-tuned dLLMs, even when harmful behaviors or unsafe instructions are directly exposed in the prompt. Through comprehensive experiments, we demonstrate that DIJA significantly outperforms existing jailbreak methods, exposing a previously overlooked threat surface in dLLM architectures. Notably, our method achieves up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of harmful content in the jailbreak prompt. Our findings underscore the urgent need for rethinking safety alignment in this emerging class of language models. Code is available at https://github.com/ZichenWen1/DIJA.
PDF522July 21, 2025