Stuur eerst een SCOUT: Pre-hoc redenering voor adaptieve detectorallocatie in prompt-injectieverdediging

Samenvatting

Prompt-injectiedetectoren zijn heterogeen: elk is sterk op een ander deel van aanvallen, en geen enkele is altijd betrouwbaar. Toch behandelen bestaande systemen detectie nog steeds als een vaste pijplijn met één detector, waarbij elk verzoek wordt overgelaten aan de blinde vlekken van één detector. We herformuleren verdediging als detectorallocatie: gegeven een heterogene pool, per verzoek beslissen welke detectoren moeten worden uitgevoerd en of moet worden geëscaleerd naar een LLM-rechter. Ons raamwerk SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) maakt deze beslissing dynamisch door de betrouwbaarheid per monster en de latentie van elke detector te voorspellen op basis van hoe deze zich gedroeg op vergelijkbare eerdere inputs, en stelt een enkele veiligheids-nutsdrempel bloot aan de operator (waarbij nut het goedaardige slagingspercentage en wandkloktijd omvat). Om deze setting te evalueren, bouwen we SCOUT-450, een benchmark die de structureel complexe, agent-gerichte injecties vastlegt die oudere prompt-injectiesets ondervertegenwoordigen. Op SCOUT-450 vermindert een veiligheidsgericht werkpunt het aanvalssuccespercentage met 46% en de totale wandkloktijd met 40% ten opzichte van een altijd-actieve GPT-4o-rechter, bij een daling van 5,1 punt in goedaardig nut. SCOUT transfereert ook naar drie externe benchmarks (BIPIA, IPI en IHEval), waardoor de veiligheids-nutsgrens wordt verbeterd.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.