Envie um SCOUT Primeiro: Raciocínio Pré-hoc para Alocação Adaptativa de Detectores na Defesa contra Injeção de Prompt

Resumo

Detectores de injeção de prompt são heterogêneos: cada um é forte em um grupo diferente de ataques, e nenhum é sempre confiável. No entanto, sistemas existentes ainda tratam a detecção como um pipeline fixo de detector único, comprometendo cada solicitação aos pontos cegos de um detector específico. Reformulamos a defesa como alocação de detectores: dado um conjunto heterogêneo, decidir por requisição quais detectores executar e se deve escalar para um juiz LLM. Nosso framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) torna essa decisão dinâmica ao prever a confiabilidade e latência de cada detector por amostra com base em seu comportamento em entradas passadas similares, e expõe ao operador um único limiar de segurança-utilidade (onde utilidade combina taxa de aprovação benigna e tempo real). Para avaliar esse cenário, construímos o SCOUT-450, um benchmark que captura as injeções estruturalmente complexas voltadas a agentes que conjuntos mais antigos de injeção de prompt sub-representam. No SCOUT-450, um ponto de operação orientado à segurança reduz a taxa de sucesso de ataque em 46% e o tempo total de execução em 40% em relação a um juiz GPT-4o sempre ativo, com uma queda de 5,1 pontos na utilidade benigna. O SCOUT também transfere para três benchmarks externos (BIPIA, IPI e IHEval), melhorando a fronteira segurança-utilidade.

English

Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.