D^2-Monitor: Dynamische Sicherheitsüberwachung für Diffusions-LLMs mittels zögerungsbewusstem Routing

Zusammenfassung

Trotz der Entwicklung von Diffusions-Großsprachmodellen (D-LLMs) als Alternative zu autoregressiven Großsprachmodellen (AR-LLMs) ist die Sicherheitsüberwachung für D-LLMs bislang weitgehend unerforscht. Im Gegensatz zu AR-LLMs erzeugen D-LLMs Text durch einen mehrstufigen Entrauschungsprozess, der Zwischenrepräsentationen (Hidden States) offenlegt, die sicherheitsrelevante Informationen enthalten können, die in standardmäßigen einstufigen Überwachungsszenarien nicht verfügbar sind. Motiviert durch die Eignung von leichten Probes (Sonden) für eine dauerhafte Überwachung analysieren wir, welche trajektoriebasierten Signale am besten anzeigen, wann solche Probes wahrscheinlich Schwierigkeiten haben. Wir stellen fest, dass das informativste Signal die Sicherheitszögerung (Safety Hesitation) ist: Zwischenrepräsentationen, die wiederholt innerhalb eines schmalen Bereichs der Entscheidungsgrenze des Probes liegen. Die Anzahl solcher Zögerungsschritte in der Trajektorie eines D-LLM sagt das Versagen des Probes effektiv voraus und dient als Proxy für die Schwierigkeit einer Stichprobe. Aufbauend auf dieser Analyse schlagen wir D²-Monitor vor, einen zweistufigen Sicherheitsmonitor für D-LLMs. D²-Monitor verwendet einen leichten Probe als dauerhaften Monitor, um gleichzeitig die Zögerung zu schätzen und eine Basisklassifikation durchzuführen. Wenn die Zögerung einen Schwellenwert überschreitet, wird ein ausdrucksstärkerer, aber rechenintensiverer Probe aktiviert. Dieser dynamische Routing-Mechanismus verteilt die Überwachungsressourcen zur Testzeit effizient. Evaluiert auf 3 Datensätzen (WildguardMix, ToxicChat, OpenAI-Moderation) über 4 D-LLMs hinweg erreicht D²-Monitor eine Spitzenleistung mit einer kompakten Parameteranzahl (≤ 0,85 M Parameter) und zeigt den besten Kompromiss zwischen Effektivität und Effizienz im Vergleich zu 8 Basislinien.

English

Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose D^2-Monitor, a bi-level safety monitor for D-LLMs. D^2-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, D^2-Monitor achieves state-of-the-art performance with a compact parameter footprint (leq 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.