Van prompt-injectie naar persistente controle: verdedigen van Agentic Harness tegen Trojaanse achterdeuren

Samenvatting

LLM-agenten evolueren van conversationele chatbots naar operationele tools in echte werkruimtes. In lokale agentische harnesses kan een LLM bestanden lezen en schrijven, tools aanroepen en de werkruimtestatus over sessies heen hergebruiken. Hoewel dergelijke mogelijkheden de bruikbaarheid vergroten, stellen ze ook een nieuw aanvalsoppervlak bloot voor aanvallers. Aanvallers kunnen een promptinjectie verbergen in een bestand of tooloutput. Agenten kunnen deze verborgen instructie lezen, opslaan en later uitvoeren. In dit meerstapstrojan-aanvalparadigma lijkt geen enkele individuele stap op zichzelf kwaadaardig, maar deze stappen kunnen gezamenlijk onvertrouwde tekst omzetten in persistente controle-inhoud. Echter, bestaande verdedigingen inspecteren vaak elke stap geïsoleerd. Als gevolg hiervan kunnen ze een duidelijke schadelijke actie blokkeren, maar slagen ze er niet in om de eerdere schrijfbewerking die de achterdeur plaatst, te detecteren. Om deze dreiging te onthullen, introduceren we ClawTrojan, een benchmark ontworpen om meerstapstrojan-aanvallen in lokale agentische harnesses te identificeren. In een OpenClaw-achtige gesimuleerde werkruimte met GPT-5.4 behaalt ClawTrojan een aanvalsuccespercentage (ASR) van 95,5%, terwijl bestaande enkelvoudige promptinjectie-aanvallen een bijna-nul ASR opleveren op hetzelfde model. Om deze dreiging aan te pakken, stellen we DASGuard voor, dat controle-achtige tekst in gevoelige lokale bestanden scant, de oorsprong ervan traceert en controle-inhoud verwijdert die niet afkomstig is van een vertrouwde bron. Onze resultaten tonen aan dat DASGuard een sterke dynamische verdediging bereikt door runtime-aanvalsblokkering te combineren met gesaneerde commits naar de werkruimte.

English

LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can read and write files, call tools, and reuse workspace state across sessions. While such capabilities enhance utility, they also expose a new attack surface for attackers. Attackers can embed a prompt injection within a file or tool output. Agents may read this hidden instruction, store it, and execute it later. In this multi-step trojan attack paradigm, no individual step appears malicious on its own, but these steps can collectively turn untrusted text into persistent control content. However, existing defenses often inspect each step in isolation. As a result, they can block a clear harmful action, but fail to detect the earlier write operation that plants the backdoor. To reveal this threat, we introduce ClawTrojan, a benchmark designed to identify multi-step trojan attacks in local agentic harnesses. In an OpenClaw-style simulated workspace with GPT-5.4, ClawTrojan reaches a 95.5% attack success rate (ASR), while existing single-turn prompt-injection attacks produce near-zero ASR on the same model. To address this threat, we propose DASGuard, which scans control-like text in sensitive local files, traces its origin, and removes control content that does not originate from a trusted source. Our results show that DASGuard achieves strong dynamic defense by combining runtime attack blocking with sanitized commits to the workspace.