D^2-Monitor : Surveillance dynamique de la sécurité pour les LLMs de diffusion via un routage conscient de l'hésitation

Résumé

Malgré l'émergence des modèles de langage de grande taille à diffusion (D-LLMs) comme alternative aux modèles de langage de grande taille autorégressifs (AR-LLMs), la surveillance de la sécurité pour les D-LLMs reste largement inexplorée. Contrairement aux AR-LLMs, les D-LLMs génèrent du texte via un processus de débruitage multi-étapes, exposant des représentations cachées intermédiaires qui peuvent contenir des informations pertinentes pour la sécurité, non disponibles dans les configurations de surveillance standard à une seule étape. Motivés par l'adéquation des sondes légères pour une surveillance permanente, nous analysons quels signaux au niveau de la trajectoire indiquent le mieux quand de telles sondes sont susceptibles d'échouer. Nous constatons que le signal le plus informatif est l'hésitation de sécurité : des états cachés intermédiaires tombant à plusieurs reprises dans une marge étroite de la frontière de décision de la sonde. Le nombre de ces pas d'hésitation dans la trajectoire du D-LLM prédit efficacement l'échec de la sonde, fournissant un proxy de la difficulté de l'échantillon. Sur la base de cette analyse, nous proposons D²-Monitor, un moniteur de sécurité à deux niveaux pour les D-LLMs. D²-Monitor adopte une sonde légère comme moniteur permanent pour estimer conjointement l'hésitation et effectuer la classification de base. Lorsque le niveau d'hésitation dépasse un seuil, une sonde plus expressive mais plus coûteuse en calcul est activée. Ce mécanisme de routage dynamique alloue efficacement les ressources de surveillance au moment du test. Évalué sur 3 jeux de données (WildguardMix, ToxicChat, OpenAI-Moderation) sur 4 D-LLMs, D²-Monitor atteint des performances de pointe avec une empreinte de paramètres compacte (≤ 0,85 million de paramètres), et présente le meilleur compromis entre efficacité et efficience par rapport à 8 références.

English

Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose D^2-Monitor, a bi-level safety monitor for D-LLMs. D^2-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, D^2-Monitor achieves state-of-the-art performance with a compact parameter footprint (leq 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.