CausalArmor: Protezioni Efficienti contro Iniezioni Indirette di Prompt tramite Attribuzione Causale

Abstract

Gli agenti IA dotati di capacità di chiamata di strumenti sono vulnerabili ad attacchi di Iniezione Indiretta di Prompt (IPI). In questo scenario d'attacco, comandi malevoli nascosti all'interno di contenuti non attendibili ingannano l'agente spingendolo a compiere azioni non autorizzate. Le difese esistenti possono ridurre il successo degli attacchi, ma spesso soffrono del dilemma della sovradifesa: implementano una costosa e permanente sanificazione indipendentemente dalla minaccia reale, degradando così utilità e latenza anche in scenari benigni. Riconsideriamo l'IPI attraverso una prospettiva di ablazione causale: un'iniezione riuscita si manifesta come un cambiamento di dominanza in cui la richiesta dell'utente non fornisce più un supporto decisivo per l'azione privilegiata dell'agente, mentre un particolare segmento non attendibile, come un documento recuperato o un output di strumento, fornisce un'influenza attribuibile sproporzionata. Basandoci su questa firma, proponiamo CausalArmor, un framework di difesa selettivo che (i) calcola attribuzioni leggere, basate sull'ablazione leave-one-out, nei punti decisionali privilegiati, e (ii) attiva una sanificazione mirata solo quando un segmento non attendibile domina l'intento dell'utente. Inoltre, CausalArmor utilizza un mascheramento retroattivo della Catena di Pensiero (Chain-of-Thought) per impedire all'agente di agire su tracce di ragionamento "avvelenate". Presentiamo un'analisi teorica che mostra come la sanificazione basata sui margini di attribuzione produca condizionalmente un limite superiore esponenzialmente piccolo sulla probabilità di selezionare azioni malevole. Esperimenti su AgentDojo e DoomArena dimostrano che CausalArmor eguaglia la sicurezza delle difese aggressive migliorando al contempo la spiegabilità e preservando utilità e latenza degli agenti IA.

English

AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.

CausalArmor: Protezioni Efficienti contro Iniezioni Indirette di Prompt tramite Attribuzione Causale

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Abstract

Support