Un tour trop tard : Défense sensible à la réponse contre l'intention malveillante cachée dans le dialogue multi-tour

Résumé

L'intention malveillante cachée dans les dialogues multi-tours constitue une menace croissante pour les grands modèles de langage (LLMs) déployés. Plutôt que de révéler un objectif nuisible en un seul prompt, des attaquants de plus en plus compétents peuvent répartir leur intention sur plusieurs tours d'apparence anodine. Des études récentes montrent que même les modèles commerciaux modernes dotés de garde-fous avancés restent vulnérables à de telles attaques, malgré les progrès en matière d'alignement de sécurité et de protections externes. Dans ce travail, nous relevons ce défi en détectant le premier tour auquel fournir la réponse candidate rendrait l'interaction accumulée suffisante pour permettre une action nuisible. Cet objectif nécessite une intervention précise au niveau du tour, qui identifie le point de basculement vers la nocivité tout en évitant un refus prématuré de conversations exploratoires bénignes. Pour soutenir davantage l'entraînement et l'évaluation, nous construisons le jeu de données d'intention multi-tours (MTID), qui contient des déploiements d'attaques ramifiés, des négatifs durs bénins appariés, et des annotations des premiers tours permettant la nocivité. Nous montrons que MTID contribue à permettre un moniteur au niveau du tour, TurnGate, qui surpasse nettement les bases de référence existantes dans la détection d'intention malveillante tout en maintenant de faibles taux de refus excessif. TurnGate se généralise en outre à travers les domaines, les pipelines d'attaquants et les modèles cibles. Notre code est disponible à l'adresse https://github.com/Graph-COM/TurnGate.

English

Hidden malicious intent in multi-turn dialogue poses a growing threat to deployed large language models (LLMs). Rather than exposing a harmful objective in a single prompt, increasingly capable attackers can distribute their intent across multiple benign-looking turns. Recent studies show that even modern commercial models with advanced guardrails remain vulnerable to such attacks despite advances in safety alignment and external guardrails. In this work, we address this challenge by detecting the earliest turn at which delivering the candidate response would make the accumulated interaction sufficient to enable harmful action. This objective requires precise turn-level intervention that identifies the harm-enabling closure point while avoiding premature refusal of benign exploratory conversations. To further support training and evaluation, we construct the Multi-Turn Intent Dataset (MTID), which contains branching attack rollouts, matched benign hard negatives, and annotations of the earliest harm-enabling turns. We show that MTID helps enable a turn-level monitor TurnGate, which substantially outperforms existing baselines in harmful-intent detection while maintaining low over-refusal rates. TurnGate further generalizes across domains, attacker pipelines, and target models. Our code is available at https://github.com/Graph-COM/TurnGate.

Un tour trop tard : Défense sensible à la réponse contre l'intention malveillante cachée dans le dialogue multi-tour

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Résumé

Support