D^2-Monitor: Динамический мониторинг безопасности для диффузионных LLM на основе маршрутизации, учитывающей неопределенность

Аннотация

Несмотря на появление диффузионных больших языковых моделей (D-LLM) в качестве альтернативы авторегрессионным большим языковым моделям (AR-LLM), мониторинг безопасности D-LLM остается в значительной степени неизученным. В отличие от AR-LLM, D-LLM генерируют текст с помощью многошагового процесса шумоподавления, раскрывая промежуточные скрытые представления, которые могут содержать информацию, связанную с безопасностью, недоступную в стандартных одношаговых конфигурациях мониторинга. Руководствуясь пригодностью легковесных пробников для постоянного мониторинга, мы анализируем, какие сигналы на уровне траектории лучше всего указывают на то, когда такие пробники могут испытывать затруднения. Мы обнаружили, что наиболее информативным сигналом является безопасностное колебание: промежуточные скрытые состояния неоднократно попадают в малый запас от границы принятия решения пробника. Количество таких шагов колебания в траектории D-LLM эффективно предсказывает отказ пробника, предоставляя прокси сложности примера. Основываясь на этом анализе, мы предлагаем D²-Monitor — двухуровневый монитор безопасности для D-LLM. D²-Monitor использует легковесный пробник в качестве постоянно действующего монитора для совместной оценки колебания и выполнения базовой классификации. Когда уровень колебания превышает порог, активируется более выразительный, но вычислительно более затратный пробник. Этот механизм динамической маршрутизации эффективно распределяет ресурсы мониторинга во время тестирования. Оцененный на 3 наборах данных (WildguardMix, ToxicChat, OpenAI-Moderation) для 4 D-LLM, D²-Monitor достигает современных результатов с компактным числом параметров (не более 0,85 млн) и демонстрирует наилучший компромисс между результативностью и эффективностью по сравнению с 8 базовыми моделями.

English

Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose D^2-Monitor, a bi-level safety monitor for D-LLMs. D^2-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, D^2-Monitor achieves state-of-the-art performance with a compact parameter footprint (leq 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.