ChatPaper.aiChatPaper

CausalArmor: Effiziente Schutzmaßnahmen gegen indirekte Prompt-Injection-Angriffe mittels Kausalattribution

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

February 8, 2026
papers.authors: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI

papers.abstract

KI-Agenten mit Werkzeugaufruffähigkeiten sind anfällig für Indirect Prompt Injection (IPI)-Angriffe. In diesem Angriffsszenario bringen bösartige Befehle, die in nicht vertrauenswürdigen Inhalten versteckt sind, den Agenten dazu, unbefugte Aktionen auszuführen. Bestehende Verteidigungsmechanismen können die Angriffserfolgsrate verringern, leiden jedoch oft unter dem Over-Defense-Dilemma: Sie setzen aufwendige, ständig aktive Bereinigungsmaßnahmen unabhängig von der tatsächlichen Bedrohungslage ein und beeinträchtigen so Nutzbarkeit und Latenz selbst in harmlosen Szenarien. Wir betrachten IPI aus einer neuen Perspektive der kausalen Ablation: Eine erfolgreiche Injection manifestiert sich als eine Dominanzverschiebung, bei der die Benutzeranfrage keine entscheidende Grundlage mehr für die privilegierte Aktion des Agenten liefert, während ein bestimmter nicht vertrauenswürdiger Abschnitt, wie ein abgerufenes Dokument oder eine Werkzeugausgabe, einen unverhältnismäßig großen attributierbaren Einfluss ausübt. Basierend auf diesem Merkmal schlagen wir CausalArmor vor, ein selektives Verteidigungsframework, das (i) leichtgewichtige, auf Leave-One-Out-Ablation basierende Attributionen an privilegierten Entscheidungspunkten berechnet und (ii) gezielte Bereinigung nur dann auslöst, wenn ein nicht vertrauenswürdiger Abschnitt die Benutzerabsicht dominiert. Zusätzlich setzt CausalArmor retrospektives Chain-of-Thought-Masking ein, um zu verhindern, dass der Agent auf „vergiftete“ Denkpfade reagiert. Wir präsentieren eine theoretische Analyse, die zeigt, dass eine Bereinigung basierend auf Attributionsspannen unter bestimmten Bedingungen eine exponentiell kleine obere Schranke für die Wahrscheinlichkeit der Auswahl bösartiger Aktionen liefert. Experimente auf AgentDojo und DoomArena demonstrieren, dass CausalArmor die Sicherheit aggressiver Verteidigungsansätze erreicht, gleichzeitig aber die Erklärbarkeit verbessert sowie Nutzbarkeit und Latenz von KI-Agenten erhält.
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.
PDF11February 12, 2026