De la inyección de prompts al control persistente: Defendiendo el arnés de agentes contra puertas traseras troyanas

Resumen

Los agentes LLM están evolucionando de chatbots conversacionales a herramientas operativas en espacios de trabajo reales. En entornos de agente locales, un LLM puede leer y escribir archivos, llamar herramientas y reutilizar el estado del espacio de trabajo entre sesiones. Si bien estas capacidades mejoran la utilidad, también exponen una nueva superficie de ataque para los atacantes. Estos pueden incrustar una inyección de instrucciones dentro de un archivo o la salida de una herramienta. Los agentes pueden leer esta instrucción oculta, almacenarla y ejecutarla más tarde. En este paradigma de ataque troyano de múltiples pasos, ningún paso individual parece malicioso por sí solo, pero estos pasos pueden convertir colectivamente texto no confiable en contenido de control persistente. Sin embargo, las defensas existentes a menudo inspeccionan cada paso de forma aislada. Como resultado, pueden bloquear una acción dañina clara, pero no logran detectar la operación de escritura anterior que instala la puerta trasera. Para revelar esta amenaza, presentamos ClawTrojan, un punto de referencia diseñado para identificar ataques troyanos de múltiples pasos en entornos de agente locales. En un espacio de trabajo simulado estilo OpenClaw con GPT-5.4, ClawTrojan alcanza una tasa de éxito de ataque (ASR) del 95,5 %, mientras que los ataques existentes de inyección de instrucciones de una sola ronda producen una ASR cercana a cero en el mismo modelo. Para abordar esta amenaza, proponemos DASGuard, que escanea texto de tipo control en archivos locales sensibles, rastrea su origen y elimina el contenido de control que no se origina de una fuente confiable. Nuestros resultados muestran que DASGuard logra una defensa dinámica sólida al combinar el bloqueo de ataques en tiempo de ejecución con confirmaciones sanitizadas al espacio de trabajo.

English

LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can read and write files, call tools, and reuse workspace state across sessions. While such capabilities enhance utility, they also expose a new attack surface for attackers. Attackers can embed a prompt injection within a file or tool output. Agents may read this hidden instruction, store it, and execute it later. In this multi-step trojan attack paradigm, no individual step appears malicious on its own, but these steps can collectively turn untrusted text into persistent control content. However, existing defenses often inspect each step in isolation. As a result, they can block a clear harmful action, but fail to detect the earlier write operation that plants the backdoor. To reveal this threat, we introduce ClawTrojan, a benchmark designed to identify multi-step trojan attacks in local agentic harnesses. In an OpenClaw-style simulated workspace with GPT-5.4, ClawTrojan reaches a 95.5% attack success rate (ASR), while existing single-turn prompt-injection attacks produce near-zero ASR on the same model. To address this threat, we propose DASGuard, which scans control-like text in sensitive local files, traces its origin, and removes control content that does not originate from a trusted source. Our results show that DASGuard achieves strong dynamic defense by combining runtime attack blocking with sanitized commits to the workspace.