D^2-Monitor: Monitoramento Dinâmico de Segurança para LLMs de Difusão via Roteamento Sensível à Hesitação

Resumo

Apesar do surgimento dos modelos de linguagem de difusão (D-LLMs) como alternativa aos modelos de linguagem autorregressivos (AR-LLMs), o monitoramento de segurança para D-LLMs permanece amplamente inexplorado. Ao contrário dos AR-LLMs, os D-LLMs geram texto por meio de um processo de remoção de ruído em múltiplas etapas, expondo representações ocultas intermediárias que podem conter informações relevantes para a segurança indisponíveis em configurações padrão de monitoramento de etapa única. Motivados pela adequação de sondas leves para monitoramento contínuo, analisamos quais sinais em nível de trajetória melhor indicam quando tais sondas provavelmente terão dificuldades. Descobrimos que o sinal mais informativo é a hesitação de segurança: estados ocultos intermediários que caem repetidamente dentro de uma pequena margem da fronteira de decisão da sonda. O número dessas etapas de hesitação na trajetória do D-LLM prediz efetivamente a falha da sonda, fornecendo um proxy da dificuldade da amostra. Com base nessa análise, propomos o D²-Monitor, um monitor de segurança de dois níveis para D-LLMs. O D²-Monitor adota uma sonda leve como monitor contínuo para estimar conjuntamente a hesitação e realizar a classificação base. Quando o nível de hesitação excede um limiar, uma sonda mais expressiva, porém computacionalmente mais pesada, é ativada. Esse mecanismo de roteamento dinâmico aloca eficientemente os recursos de monitoramento no momento do teste. Avaliado em 3 conjuntos de dados (WildguardMix, ToxicChat, OpenAI-Moderation) em 4 D-LLMs, o D²-Monitor alcança desempenho de ponta com uma pegada compacta de parâmetros (≤ 0,85M parâmetros) e exibe o melhor compromisso entre eficácia e eficiência em relação a 8 baselines.

English

Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose D^2-Monitor, a bi-level safety monitor for D-LLMs. D^2-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, D^2-Monitor achieves state-of-the-art performance with a compact parameter footprint (leq 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.