CausalArmor: 인과적 귀인을 통한 효율적인 간접 프롬프트 인젝션 방어 장치
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
February 8, 2026
저자: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI
초록
도구 호출 기능을 갖춘 AI 에이전트는 간접 프롬프트 주입(IPI) 공격에 취약합니다. 이러한 공격 시나리오에서는 신뢰할 수 없는 콘텐츠 내에 숨겨진 악성 명령이 에이전트를 속여 권한이 없는 작업을 수행하도록 만듭니다. 기존 방어 기법은 공격 성공률을 낮출 수 있지만, 실제 위협 유무와 관계없이 비용이 많이 드는 상시 살균 처리를 적용하여 양성 시나리오에서도 유용성과 지연 시간을 저하시키는 과잉 방어 딜레마에 자주 직면합니다. 우리는 인과 관계 제거(CAusal Ablation) 관점에서 IPI를 재조명합니다. 성공적인 주입은 사용자 요청이 더 이상 에이전트의 권한 있는 작업에 결정적 지원을 제공하지 않는 지배력 전환으로 나타나며, 검색된 문서나 도구 출력과 같은 특정 신뢰할 수 없는 세그먼트가 과도하게 귀속되는 영향을 미칩니다. 이러한 특징을 바탕으로 우리는 (i) 권한 있는 의사 결정 지점에서 경량의 단일 제거 기반 귀속 분석을 계산하고, (ii) 신뢰할 수 없는 세그먼트가 사용자 의도를 지배할 때만 표적 살균 처리를 트리거하는 선택적 방어 프레임워크인 CausalArmor를 제안합니다. 또한 CausalArmor는 사후 사고 연쇄(Chain-of-Thought) 마스킹을 활용하여 에이전트가 "오염된" 추적 논리를 기반으로 행동하는 것을 방지합니다. 우리는 귀속 차이(Margin)를 기반으로 한 살균 처리가 악성 작업 선택 확률에 대해 조건부 기하급수적으로 작은 상한을 제공함을 보이는 이론적 분석을 제시합니다. AgentDojo와 DoomArena에서의 실험을 통해 CausalArmor가 공격적 방어 기법의 보안성은 유지하면서 설명 가능성을 향상시키고 AI 에이전트의 유용성과 지연 시간을 보존함을 입증합니다.
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.