CausalArmor: Эффективные защитные механизмы от косвенных инъекций промптов с помощью каузальной атрибуции
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
February 8, 2026
Авторы: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI
Аннотация
Агенты ИИ, оснащенные возможностями вызова инструментов, уязвимы для атак косвенной инъекции промптов (Indirect Prompt Injection, IPI). В этом сценарии атаки скрытые во внешнем непроверенном контенте вредоносные команды обманом заставляют агента выполнять несанкционированные действия. Существующие методы защиты могут снизить успешность атак, но часто страдают от дилеммы избыточной защиты: они применяют дорогостоящую постоянную санацию независимо от реальной угрозы, что ухудшает полезность и увеличивает задержки даже в безопасных сценариях. Мы переосмысливаем проблему IPI через призму причинно-следственного абляции: успешная инъекция проявляется как сдвиг доминирования, при котором пользовательский запрос больше не обеспечивает решающей поддержки для привилегированного действия агента, в то время как определенный непроверенный сегмент (например, извлеченный документ или вывод инструмента) оказывает непропорционально большое атрибутируемое влияние. Основываясь на этой сигнатуре, мы предлагаем CausalArmor — селективную framework защиты, которая (i) вычисляет легковесные атрибуции на основе пошаговой абляции в ключевых точках принятия решений и (ii) активирует целевую санацию только тогда, когда непроверенный сегмент доминирует над пользовательским намерением. Дополнительно CausalArmor использует ретроспективное маскирование цепочки рассуждений (Chain-of-Thought), чтобы предотвратить выполнение агентом действий на основе «отравленных» трасс reasoning. Мы представляем теоретический анализ, показывающий, что санация на основе полей атрибуции условно обеспечивает экспоненциально малую верхнюю границу вероятности выбора вредоносных действий. Эксперименты на AgentDojo и DoomArena демонстрируют, что CausalArmor обеспечивает безопасность, сопоставимую с агрессивными методами защиты, при этом повышая объяснимость и сохраняя полезность и низкие задержки агентов ИИ.
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.