CausalArmor : Garde-fous efficaces contre les injections indirectes d'invites par attribution causale
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
February 8, 2026
papers.authors: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI
papers.abstract
Les agents IA dotés de capacités d'appel d'outils sont vulnérables aux attaques par injection indirecte de prompts (IPI). Dans ce scénario d'attaque, des commandes malveillantes dissimulées dans du contenu non sécurisé trompent l'agent pour qu'il exécute des actions non autorisées. Les défenses existantes peuvent réduire le taux de réussite des attaques, mais souffrent souvent du dilemme de la sur-défense : elles déploient une sanitisation coûteuse et permanente, indépendamment de la menace réelle, dégradant ainsi l'utilité et la latence même dans des scénarios bénins. Nous revisitons l'IPI sous l'angle de l'ablation causale : une injection réussie se manifeste par un changement de dominance où la requête utilisateur ne fournit plus un soutien décisif pour l'action privilégiée de l'agent, tandis qu'un segment non sécurisé particulier, comme un document récupéré ou une sortie d'outil, exerce une influence attribuable disproportionnée. Sur la base de cette signature, nous proposons CausalArmor, un framework de défense sélectif qui (i) calcule des attributions légères basées sur l'ablation leave-one-out aux points de décision privilégiés, et (ii) déclenche une sanitisation ciblée uniquement lorsqu'un segment non sécurisé domine l'intention utilisateur. De plus, CausalArmor utilise un masquage rétroactif de la Chaîne de Pensée pour empêcher l'agent d'agir sur des traces de raisonnement « empoisonnées ». Nous présentons une analyse théorique montrant que la sanitisation basée sur les marges d'attribution produit conditionnellement une borne supérieure exponentiellement petite sur la probabilité de sélectionner des actions malveillantes. Les expériences sur AgentDojo et DoomArena démontrent que CausalArmor égale la sécurité des défenses agressives tout en améliorant l'explicabilité et en préservant l'utilité et la latence des agents IA.
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.