D^2-Monitor: Monitoreo Dinámico de Seguridad para LLMs de Difusión mediante Enrutamiento Consciente de la Vacilación

Resumen

A pesar de la aparición de los modelos de lenguaje grandes de difusión (D-LLM) como alternativa a los modelos de lenguaje grandes autorregresivos (AR-LLM), el monitoreo de seguridad para los D-LLM sigue siendo en gran medida inexplorado. A diferencia de los AR-LLM, los D-LLM generan texto mediante un proceso de eliminación de ruido en múltiples pasos, exponiendo representaciones ocultas intermedias que pueden contener información relevante para la seguridad no disponible en configuraciones de monitoreo estándar de un solo paso. Motivados por la idoneidad de las sondas ligeras para el monitoreo permanente, analizamos qué señales a nivel de trayectoria indican mejor cuándo es probable que dichas sondas tengan dificultades. Encontramos que la señal más informativa es la vacilación de seguridad: estados ocultos intermedios que caen repetidamente dentro de un margen pequeño de la frontera de decisión de la sonda. El número de dichos pasos de vacilación en la trayectoria del D-LLM predice eficazmente el fallo de la sonda, proporcionando un indicador de la dificultad de la muestra. Basándonos en este análisis, proponemos D^2-Monitor, un monitor de seguridad de dos niveles para D-LLM. D^2-Monitor adopta una sonda ligera como monitor permanente para estimar conjuntamente la vacilación y realizar la clasificación base. Cuando el nivel de vacilación supera un umbral, se activa una sonda más expresiva pero computacionalmente más pesada. Este mecanismo de enrutamiento dinámico asigna eficientemente los recursos de monitoreo en tiempo de prueba. Evaluado en 3 conjuntos de datos (WildguardMix, ToxicChat, OpenAI-Moderation) en 4 D-LLM, D^2-Monitor logra un rendimiento de última generación con una huella de parámetros compacta (≤ 0.85M de parámetros), y exhibe la mejor compensación entre efectividad y eficiencia en comparación con 8 líneas base.

English

Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose D^2-Monitor, a bi-level safety monitor for D-LLMs. D^2-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, D^2-Monitor achieves state-of-the-art performance with a compact parameter footprint (leq 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.