Enviar un SCOUT primero: razonamiento pre-hoc para la asignación adaptativa de detectores en la defensa contra inyección de prompts

Resumen

Los detectores de inyección de *prompts* son heterogéneos: cada uno es eficaz en un subconjunto diferente de ataques, y ninguno es siempre fiable. Sin embargo, los sistemas actuales siguen tratando la detección como un *pipeline* fijo con un único detector, comprometiendo cada solicitud a los puntos ciegos de ese detector. Replanteamos la defensa como una asignación de detectores: dado un conjunto heterogéneo, decidir por solicitud qué detectores ejecutar y si escalar a un juez LLM. Nuestro marco SCOUT (*Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage*) hace dinámica esta decisión prediciendo la fiabilidad y latencia por muestra de cada detector a partir de su comportamiento en entradas similares previas, y expone al operador un único umbral de seguridad-utilidad (donde la utilidad agrupa la tasa de paso benigno y el tiempo de reloj). Para evaluar este escenario, construimos SCOUT-450, un *benchmark* que captura las inyecciones estructuralmente complejas y orientadas a agentes que los conjuntos de inyección de *prompts* más antiguos subrepresentan. En SCOUT-450, un punto de operación orientado a la seguridad reduce la tasa de éxito de ataque en un 46% y el tiempo de reloj total en un 40% en comparación con un juez GPT-4o siempre activo, con una caída de 5,1 puntos en utilidad benigna. SCOUT también se traslada a tres referencias externas (BIPIA, IPI e IHEval), mejorando la frontera seguridad-utilidad.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.