Zuerst einen SCOUT senden: Pre-hoc-Reasoning für adaptive Detektorallokation in der Prompt-Injection-Abwehr

Zusammenfassung

Prompt-Injektionsdetektoren sind heterogen: Jeder ist in einem anderen Angriffssegment stark, und keiner ist stets zuverlässig. Dennoch behandeln bestehende Systeme die Erkennung weiterhin als feste Ein-Detektor-Pipeline und überlassen jede Anfrage den blinden Flecken eines einzelnen Detektors. Wir formulieren die Verteidigung als Detektorzuweisung um: Bei einem heterogenen Pool wird pro Anfrage entschieden, welche Detektoren ausgeführt werden und ob eine Eskalation an einen LLM-Richter erfolgen soll. Unser Framework SCOUT (Skalierbare und kontrollierbare Ergebnisvorhersage für unsicherheitsbewusste Triage) trifft diese Entscheidung dynamisch, indem es die stichprobenbezogene Zuverlässigkeit und Latenz jedes Detektors aus dessen Verhalten bei ähnlichen vergangenen Eingaben vorhersagt und dem Betreiber eine einzelne Sicherheits-Nutzen-Schwelle bereitstellt (wobei der Nutzen die Durchlassrate für harmlose Anfragen und die Wanduhrzeit bündelt). Zur Bewertung dieser Umgebung erstellen wir SCOUT-450, einen Benchmark, der die strukturell komplexen, agentenorientierten Injektionen erfasst, die in älteren Prompt-Injektionsdatensätzen unterrepräsentiert sind. Auf SCOUT-450 reduziert ein sicherheitsorientierter Arbeitspunkt die Angriffserfolgsrate um 46 % und die Gesamtwanduhrzeit um 40 % im Vergleich zu einem ständig aktiven GPT-4o-Richter, bei einem Nutzenverlust von 5,1 Punkten bei harmlosen Anfragen. SCOUT überträgt sich außerdem auf drei externe Benchmarks (BIPIA, IPI und IHEval) und verbessert die Sicherheits-Nutzen-Grenze.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.