ChatPaper.aiChatPaper

CausalArmor: Guardarrailes Eficientes contra Inyección Indirecta de Prompts mediante Atribución Causal

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

February 8, 2026
Autores: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister
cs.AI

Resumen

Los agentes de IA equipados con capacidades de llamada a herramientas son susceptibles a ataques de Inyección Indirecta de Prompt (IPI). En este escenario de ataque, comandos maliciosos ocultos en contenido no confiable engañan al agente para que realice acciones no autorizadas. Las defensas existentes pueden reducir el éxito del ataque, pero a menudo sufren el dilema de la sobreprotección: implementan una sanitización costosa y permanente independientemente de la amenaza real, degradando así la utilidad y la latencia incluso en escenarios benignos. Revisamos el IPI desde una perspectiva de ablación causal: una inyección exitosa se manifiesta como un cambio de dominancia donde la solicitud del usuario ya no proporciona un apoyo decisivo para la acción privilegiada del agente, mientras que un segmento no confiable particular, como un documento recuperado o una salida de herramienta, proporciona una influencia atribuible desproporcionada. Basándonos en esta firma, proponemos CausalArmor, un marco de defensa selectivo que (i) calcula atribuciones ligeras basadas en ablación "leave-one-out" en puntos de decisión privilegiados, y (ii) activa una sanitización dirigida solo cuando un segmento no confiable domina la intención del usuario. Adicionalmente, CausalArmor emplea un enmascaramiento retroactivo de Cadena de Pensamiento para evitar que el agente actúe sobre trazas de razonamiento "envenenadas". Presentamos un análisis teórico que muestra que la sanitización basada en márgenes de atribución produce condicionalmente un límite superior exponencialmente pequeño en la probabilidad de seleccionar acciones maliciosas. Experimentos en AgentDojo y DoomArena demuestran que CausalArmor iguala la seguridad de las defensas agresivas mientras mejora la explicabilidad y preserva la utilidad y latencia de los agentes de IA.
English
AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.
PDF11February 12, 2026