CausalArmor: 因果的帰属に基づく効率的な間接的プロンプトインジェクション防護策
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
February 8, 2026
著者: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI
要旨
ツール呼び出し機能を備えたAIエージェントは、間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。この攻撃シナリオでは、信頼できないコンテンツ内に隠蔽された悪意のあるコマンドが、エージェントを騙して許可されていない行動を実行させる。既存の防御手法は攻撃の成功率を低下させ得るが、過剰防御のジレンマに陥りがちである。つまり、実際の脅威の有無にかかわらず、高コストで常時動作するサニタイズ処理を適用するため、良性のシナリオにおいても有用性やレイテンシが低下してしまう。本研究では、IPIを因果的アブレーションの観点から再検討する。インジェクションが成功すると、ユーザリクエストがエージェントの特権アクションに対する決定的な支持を提供しなくなり、特定の信頼できないセグメント(検索された文書やツール出力など)が不釣り合いに大きな帰属的影響力を及ぼす、という支配権の移行が生じる。この特徴に基づき、我々は選択的防御フレームワーク「CausalArmor」を提案する。CausalArmorは、(i) 特権決定点において軽量なLeave-One-Outアブレーションに基づく帰属分析を計算し、(ii) 信頼できないセグメントがユーザ意図を支配している場合にのみ、標的型サニタイズを発動する。さらにCausalArmorは、事後的連鎖思考マスキングを採用し、エージェントが「汚染された」推論トレースに基づいて行動することを防ぐ。帰属マージンに基づくサニタイズが、悪意のあるアクションが選択される確率の条件付き指数関数的上限を導くことを理論分析により示す。AgentDojoとDoomArenaを用いた実験により、CausalArmorが攻撃的防御手法と同等の安全性を確保しつつ、説明可能性を向上させ、AIエージェントの有用性とレイテンシを維持することを実証する。
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.