Сначала отправьте SCOUT: предварительное рассуждение для адаптивного распределения детекторов в защите от инъекций в промпт

Аннотация

Детекторы промпт-инъекций неоднородны: каждый силен в своем срезе атак, и ни один не является надежным всегда. Тем не менее существующие системы по-прежнему рассматривают защиту как фиксированный конвейер с одним детектором, направляя каждый запрос в слепые зоны какого-то одного детектора. Мы переосмысливаем оборону как распределение детекторов: имея неоднородный пул, решать для каждого запроса, какие детекторы запускать и стоит ли передавать запрос на рассмотрение LLM-судье. Наш фреймворк SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage — масштабируемое и управляемое предсказание результатов для триажа с учетом неопределенности) делает это решение динамическим, предсказывая для каждого детектора его надежность и задержку на конкретном образце на основе поведения на похожих входных запросах, и предоставляет оператору единый порог безопасности-полезности (где полезность объединяет долю пропущенных безопасных запросов и общее время выполнения). Для оценки этого сценария мы создали SCOUT-450 — эталон, охватывающий структурно сложные инъекции, направленные на агентов, которые недостаточно представлены в старых наборах промпт-инъекций. На SCOUT-450 точка работы, ориентированная на безопасность, снижает долю успешных атак на 46%, а общее время выполнения — на 40% по сравнению с постоянно включенным судьей GPT-4o при падении полезности для безопасных запросов на 5,1 пункта. SCOUT также переносится на три внешних эталона (BIPIA, IPI и IHEval), улучшая границу безопасности-полезности.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.