CausalArmor: Guardas Eficientes contra Injeção Indireta de Prompts via Atribuição Causal

Resumo

Agentes de IA equipados com capacidades de chamada de ferramentas são suscetíveis a ataques de Injeção Indireta de Prompt (IPI). Neste cenário de ataque, comandos maliciosos ocultos em conteúdos não confiáveis enganam o agente, levando-o a executar ações não autorizadas. As defesas existentes podem reduzir o sucesso do ataque, mas frequentemente sofrem do dilema da superdefesa: elas implementam uma sanitização custosa e sempre ativa, independentemente da ameaça real, degradando assim a utilidade e a latência mesmo em cenários benignos. Revisitamos a IPI através de uma perspectiva de ablação causal: uma injeção bem-sucedida manifesta-se como uma mudança de dominância, onde a solicitação do usuário deixa de fornecer suporte decisivo para a ação privilegiada do agente, enquanto um segmento não confiável específico, como um documento recuperado ou a saída de uma ferramenta, fornece uma influência atribuível desproporcional. Com base nesta assinatura, propomos o CausalArmor, uma estrutura de defesa seletiva que (i) calcula atribuições leves baseadas em ablação "leave-one-out" em pontos de decisão privilegiados, e (ii) aciona uma sanitização direcionada apenas quando um segmento não confiável domina a intenção do usuário. Adicionalmente, o CausalArmor empreme o mascaramento retroativo de Cadeia de Pensamento (Chain-of-Thought) para impedir que o agente aja com base em traços de raciocínio "envenenados". Apresentamos uma análise teórica que mostra que a sanitização baseada nas margens de atribuição condicionalmente produz um limite superior exponencialmente pequeno para a probabilidade de selecionar ações maliciosas. Experimentos no AgentDojo e no DoomArena demonstram que o CausalArmor iguala a segurança das defesas agressivas, ao mesmo tempo que melhora a explicabilidade e preserva a utilidade e a latência dos agentes de IA.

English

AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.

CausalArmor: Guardas Eficientes contra Injeção Indireta de Prompts via Atribuição Causal

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Resumo

Support