ChatPaper.aiChatPaper

O Diabo por trás da máscara: Uma vulnerabilidade de segurança emergente em modelos de difusão de LLMs

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs

July 15, 2025
Autores: Zichen Wen, Jiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang
cs.AI

Resumo

Modelos de linguagem baseados em difusão (dLLMs) surgiram recentemente como uma alternativa poderosa aos LLMs autoregressivos, oferecendo inferência mais rápida e maior interatividade por meio de decodificação paralela e modelagem bidirecional. No entanto, apesar do forte desempenho em geração de código e preenchimento de texto, identificamos uma preocupação fundamental de segurança: os mecanismos de alinhamento existentes falham em proteger os dLLMs contra prompts adversariais com entradas mascaradas e conscientes do contexto, expondo novas vulnerabilidades. Para isso, apresentamos o DIJA, o primeiro estudo sistemático e framework de ataque de jailbreak que explora as fraquezas de segurança únicas dos dLLMs. Especificamente, nosso DIJA proposto constrói prompts adversariais intercalados de máscara-texto que exploram os mecanismos de geração de texto dos dLLMs, ou seja, a modelagem bidirecional e a decodificação paralela. A modelagem bidirecional leva o modelo a produzir saídas contextualmente consistentes para trechos mascarados, mesmo quando prejudiciais, enquanto a decodificação paralela limita a filtragem dinâmica e a amostragem de rejeição de conteúdo inseguro pelo modelo. Isso faz com que os mecanismos de alinhamento padrão falhem, permitindo conclusões prejudiciais em dLLMs ajustados para alinhamento, mesmo quando comportamentos prejudiciais ou instruções inseguras são expostos diretamente no prompt. Por meio de experimentos abrangentes, demonstramos que o DIJA supera significativamente os métodos de jailbreak existentes, expondo uma superfície de ameaça previamente negligenciada nas arquiteturas de dLLMs. Notavelmente, nosso método alcança até 100% de ASR baseado em palavras-chave no Dream-Instruct, superando a linha de base anterior mais forte, o ReNeLLM, em até 78,5% no ASR baseado em avaliador no JailbreakBench e em 37,7 pontos no score StrongREJECT, sem exigir reescrita ou ocultação de conteúdo prejudicial no prompt de jailbreak. Nossas descobertas destacam a necessidade urgente de repensar o alinhamento de segurança nesta classe emergente de modelos de linguagem. O código está disponível em https://github.com/ZichenWen1/DIJA.
English
Diffusion-based large language models (dLLMs) have recently emerged as a powerful alternative to autoregressive LLMs, offering faster inference and greater interactivity via parallel decoding and bidirectional modeling. However, despite strong performance in code generation and text infilling, we identify a fundamental safety concern: existing alignment mechanisms fail to safeguard dLLMs against context-aware, masked-input adversarial prompts, exposing novel vulnerabilities. To this end, we present DIJA, the first systematic study and jailbreak attack framework that exploits unique safety weaknesses of dLLMs. Specifically, our proposed DIJA constructs adversarial interleaved mask-text prompts that exploit the text generation mechanisms of dLLMs, i.e., bidirectional modeling and parallel decoding. Bidirectional modeling drives the model to produce contextually consistent outputs for masked spans, even when harmful, while parallel decoding limits model dynamic filtering and rejection sampling of unsafe content. This causes standard alignment mechanisms to fail, enabling harmful completions in alignment-tuned dLLMs, even when harmful behaviors or unsafe instructions are directly exposed in the prompt. Through comprehensive experiments, we demonstrate that DIJA significantly outperforms existing jailbreak methods, exposing a previously overlooked threat surface in dLLM architectures. Notably, our method achieves up to 100% keyword-based ASR on Dream-Instruct, surpassing the strongest prior baseline, ReNeLLM, by up to 78.5% in evaluator-based ASR on JailbreakBench and by 37.7 points in StrongREJECT score, while requiring no rewriting or hiding of harmful content in the jailbreak prompt. Our findings underscore the urgent need for rethinking safety alignment in this emerging class of language models. Code is available at https://github.com/ZichenWen1/DIJA.
PDF622July 21, 2025