Un Turno Demasiado Tarde: Defensa Consciente de la Respuesta Contra la Intención Maliciosa Oculta en el Diálogo Multiturno

Resumen

La intención maliciosa oculta en diálogos de múltiples turnos representa una amenaza creciente para los modelos de lenguaje de gran escala (LLMs) desplegados. En lugar de exponer un objetivo dañino en una única indicación, atacantes cada vez más capaces pueden distribuir su intención a través de múltiples turnos de apariencia benigna. Estudios recientes muestran que incluso los modelos comerciales modernos con barreras de seguridad avanzadas siguen siendo vulnerables a tales ataques, a pesar de los avances en alineación de seguridad y barreras externas. En este trabajo, abordamos este desafío detectando el turno más temprano en el que entregar la respuesta candidata haría que la interacción acumulada sea suficiente para permitir una acción dañina. Este objetivo requiere una intervención precisa a nivel de turno que identifique el punto de cierre que posibilita el daño, evitando al mismo tiempo un rechazo prematuro de conversaciones exploratorias benignas. Para respaldar aún más el entrenamiento y la evaluación, construimos el Conjunto de Datos de Intención en Múltiples Turnos (MTID), que contiene despliegues de ataque ramificados, negativos duros benignos emparejados y anotaciones de los turnos que habilitan el daño más tempranos. Mostramos que MTID ayuda a habilitar un monitor a nivel de turno, TurnGate, que supera sustancialmente a las líneas base existentes en la detección de intenciones dañinas, manteniendo al mismo tiempo bajas tasas de rechazo excesivo. TurnGate se generaliza además a través de dominios, pipelines de ataque y modelos objetivo. Nuestro código está disponible en https://github.com/Graph-COM/TurnGate.

English

Hidden malicious intent in multi-turn dialogue poses a growing threat to deployed large language models (LLMs). Rather than exposing a harmful objective in a single prompt, increasingly capable attackers can distribute their intent across multiple benign-looking turns. Recent studies show that even modern commercial models with advanced guardrails remain vulnerable to such attacks despite advances in safety alignment and external guardrails. In this work, we address this challenge by detecting the earliest turn at which delivering the candidate response would make the accumulated interaction sufficient to enable harmful action. This objective requires precise turn-level intervention that identifies the harm-enabling closure point while avoiding premature refusal of benign exploratory conversations. To further support training and evaluation, we construct the Multi-Turn Intent Dataset (MTID), which contains branching attack rollouts, matched benign hard negatives, and annotations of the earliest harm-enabling turns. We show that MTID helps enable a turn-level monitor TurnGate, which substantially outperforms existing baselines in harmful-intent detection while maintaining low over-refusal rates. TurnGate further generalizes across domains, attacker pipelines, and target models. Our code is available at https://github.com/Graph-COM/TurnGate.

Un Turno Demasiado Tarde: Defensa Consciente de la Respuesta Contra la Intención Maliciosa Oculta en el Diálogo Multiturno

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Resumen

Support