Eine Runde zu spät: Antwortbewusste Verteidigung gegen versteckte böswillige Absichten in mehrschrittigen Dialogen

Zusammenfassung

Versteckte böswillige Absicht in mehrstufigen Dialogen stellt eine wachsende Bedrohung für eingesetzte große Sprachmodelle (LLMs) dar. Anstatt ein schädliches Ziel in einer einzigen Aufforderung offenzulegen, können zunehmend fähige Angreifer ihre Absicht auf mehrere harmlos aussehende Gesprächsrunden verteilen. Aktuelle Studien zeigen, dass selbst moderne kommerzielle Modelle mit fortschrittlichen Schutzmechanismen trotz Fortschritten im Safety Alignment und externen Schutzmechanismen anfällig für solche Angriffe bleiben. In dieser Arbeit gehen wir diese Herausforderung an, indem wir die früheste Gesprächsrunde erkennen, bei der die Abgabe der Kandidatenantwort die angesammelte Interaktion ausreichen lassen würde, um schädliches Handeln zu ermöglichen. Dieses Ziel erfordert eine präzise Intervention auf Gesprächsebene, die den schadensermöglichenden Abschlusspunkt identifiziert, während eine vorzeitige Ablehnung harmloser explorativer Gespräche vermieden wird. Zur weiteren Unterstützung von Training und Evaluierung erstellen wir den Multi-Turn Intent Dataset (MTID), der verzweigte Angriffsausrollungen, abgestimmte harmlose harte Negative und Annotationen der frühesten schadensermöglichenden Gesprächsrunden enthält. Wir zeigen, dass MTID die Entwicklung eines turn-level Monitors TurnGate ermöglicht, der bestehende Basislinien in der Erkennung von schädlicher Absicht deutlich übertrifft, während er niedrige Überablehnungsraten beibehält. TurnGate verallgemeinert sich zudem über verschiedene Domänen, Angreiferpipelines und Zielmodelle hinweg. Unser Code ist verfügbar unter https://github.com/Graph-COM/TurnGate.

English

Hidden malicious intent in multi-turn dialogue poses a growing threat to deployed large language models (LLMs). Rather than exposing a harmful objective in a single prompt, increasingly capable attackers can distribute their intent across multiple benign-looking turns. Recent studies show that even modern commercial models with advanced guardrails remain vulnerable to such attacks despite advances in safety alignment and external guardrails. In this work, we address this challenge by detecting the earliest turn at which delivering the candidate response would make the accumulated interaction sufficient to enable harmful action. This objective requires precise turn-level intervention that identifies the harm-enabling closure point while avoiding premature refusal of benign exploratory conversations. To further support training and evaluation, we construct the Multi-Turn Intent Dataset (MTID), which contains branching attack rollouts, matched benign hard negatives, and annotations of the earliest harm-enabling turns. We show that MTID helps enable a turn-level monitor TurnGate, which substantially outperforms existing baselines in harmful-intent detection while maintaining low over-refusal rates. TurnGate further generalizes across domains, attacker pipelines, and target models. Our code is available at https://github.com/Graph-COM/TurnGate.

Eine Runde zu spät: Antwortbewusste Verteidigung gegen versteckte böswillige Absichten in mehrschrittigen Dialogen

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Zusammenfassung

Support