На один ход позже: защита, учитывающая ответы, от скрытого злонамеренного умысла в многоходовом диалоге

Аннотация

Скрытый злонамеренный умысел в многоэтапных диалогах представляет растущую угрозу для развернутых больших языковых моделей (БЯМ). Вместо того чтобы предъявлять вредоносную цель в одном запросе, все более искушенные злоумышленники могут распределять свой умысел по нескольким на первый взгляд безобидным репликам. Недавние исследования показывают, что даже современные коммерческие модели с продвинутыми защитными механизмами остаются уязвимыми для таких атак, несмотря на успехи в области выравнивания безопасности и внешних защитных ограждений. В данной работе мы решаем эту задачу путем обнаружения самой ранней реплики, на которой предоставление ответа-кандидата сделает накопленное взаимодействие достаточным для осуществления вредоносного действия. Эта цель требует точного вмешательства на уровне реплик, которое идентифицирует точку закрытия, допускающую вред, избегая при этом преждевременного отказа в безвредных исследовательских беседах. Для дополнительной поддержки обучения и оценки мы создаем набор данных о намерениях в многоэтапном диалоге (MTID), который содержит ветвящиеся сценарии атак, подобранные безвредные сложные отрицательные примеры и аннотации самых ранних реплик, допускающих вред. Мы показываем, что MTID помогает реализовать монитор на уровне реплик TurnGate, который существенно превосходит существующие базовые подходы в обнаружении злонамеренных намерений при сохранении низкого уровня излишних отказов. TurnGate дополнительно обобщается на различные области, конвейеры атак и целевые модели. Наш код доступен по адресу https://github.com/Graph-COM/TurnGate.

English

Hidden malicious intent in multi-turn dialogue poses a growing threat to deployed large language models (LLMs). Rather than exposing a harmful objective in a single prompt, increasingly capable attackers can distribute their intent across multiple benign-looking turns. Recent studies show that even modern commercial models with advanced guardrails remain vulnerable to such attacks despite advances in safety alignment and external guardrails. In this work, we address this challenge by detecting the earliest turn at which delivering the candidate response would make the accumulated interaction sufficient to enable harmful action. This objective requires precise turn-level intervention that identifies the harm-enabling closure point while avoiding premature refusal of benign exploratory conversations. To further support training and evaluation, we construct the Multi-Turn Intent Dataset (MTID), which contains branching attack rollouts, matched benign hard negatives, and annotations of the earliest harm-enabling turns. We show that MTID helps enable a turn-level monitor TurnGate, which substantially outperforms existing baselines in harmful-intent detection while maintaining low over-refusal rates. TurnGate further generalizes across domains, attacker pipelines, and target models. Our code is available at https://github.com/Graph-COM/TurnGate.

На один ход позже: защита, учитывающая ответы, от скрытого злонамеренного умысла в многоходовом диалоге

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Аннотация

Support