Envoyez d'abord un SCOUT : raisonnement pré-hoc pour l'allocation adaptative de détecteurs dans la défense contre l'injection de prompts

Résumé

Les détecteurs d'injection de prompt sont hétérogènes : chacun est performant sur une tranche différente d'attaques, et aucun n'est toujours fiable. Pourtant, les systèmes existants traitent encore la détection comme un pipeline fixe à détecteur unique, exposant chaque requête aux angles morts d'un seul détecteur. Nous reformulons la défense comme une allocation de détecteurs : à partir d'un pool hétérogène, décider pour chaque requête quels détecteurs exécuter et s'il faut escalader vers un juge LLM. Notre cadre SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) rend cette décision dynamique en prédisant la fiabilité et la latence par échantillon de chaque détecteur à partir de son comportement sur des entrées passées similaires, et expose un seul seuil sécurité-utilité à l'opérateur (où l'utilité regroupe le taux de passage bénin et le temps réel). Pour évaluer ce cadre, nous construisons SCOUT-450, un benchmark qui capture les injections complexes, orientées agents, que les anciens ensembles d'injection de prompt sous-représentent. Sur SCOUT-450, un point de fonctionnement orienté sécurité réduit le taux de succès des attaques de 46 % et le temps réel total de 40 % par rapport à un juge GPT-4o toujours actif, avec une baisse de 5,1 points de l'utilité bénigne. SCOUT se transfère également à trois benchmarks externes (BIPIA, IPI et IHEval), améliorant la frontière sécurité-utilité.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.