Von Prompt Injection zu persistenter Kontrolle: Verteidigung des Agentic-Harness gegen Trojanische Hintertüren

Zusammenfassung

LLM-Agenten entwickeln sich von Konversations-Chatbots zu operationellen Werkzeugen in realen Arbeitsumgebungen. In lokalen agentischen Umgebungen kann ein LLM Dateien lesen und schreiben, Werkzeuge aufrufen und den Arbeitsumgebungszustand über Sitzungen hinweg wiederverwenden. Während solche Fähigkeiten den Nutzen erhöhen, legen sie auch eine neue Angriffsfläche für Angreifer offen. Angreifer können eine Prompt-Injektion in eine Datei oder eine Werkzeugausgabe einbetten. Agenten können diese versteckte Anweisung lesen, speichern und später ausführen. In diesem mehrstufigen Trojaner-Angriffsparadigma erscheint kein einzelner Schritt für sich genommen bösartig, aber diese Schritte können gemeinsam unvertrauten Text in dauerhafte Steuerungsinhalte verwandeln. Bestehende Abwehrmaßnahmen prüfen jedoch oft jeden Schritt isoliert. Dadurch können sie zwar eine offensichtlich schädliche Aktion blockieren, übersehen jedoch die frühere Schreiboperation, die die Hintertür einpflanzt. Um diese Bedrohung aufzuzeigen, führen wir ClawTrojan ein, einen Benchmark, der darauf ausgelegt ist, mehrstufige Trojaner-Angriffe in lokalen agentischen Umgebungen zu identifizieren. In einer simulierten Arbeitsumgebung im OpenClaw-Stil mit GPT-5.4 erreicht ClawTrojan eine Angriffserfolgsrate (ASR) von 95,5 %, während herkömmliche einmalige Prompt-Injektionsangriffe auf demselben Modell eine nahezu null ASR erzielen. Um dieser Bedrohung zu begegnen, schlagen wir DASGuard vor, das steuerungsähnlichen Text in sensiblen lokalen Dateien scannt, seinen Ursprung zurückverfolgt und Steuerungsinhalte entfernt, die nicht von einer vertrauenswürdigen Quelle stammen. Unsere Ergebnisse zeigen, dass DASGuard eine starke dynamische Abwehr erreicht, indem es die Blockierung von Angriffen zur Laufzeit mit bereinigten Commits in die Arbeitsumgebung kombiniert.

English

LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can read and write files, call tools, and reuse workspace state across sessions. While such capabilities enhance utility, they also expose a new attack surface for attackers. Attackers can embed a prompt injection within a file or tool output. Agents may read this hidden instruction, store it, and execute it later. In this multi-step trojan attack paradigm, no individual step appears malicious on its own, but these steps can collectively turn untrusted text into persistent control content. However, existing defenses often inspect each step in isolation. As a result, they can block a clear harmful action, but fail to detect the earlier write operation that plants the backdoor. To reveal this threat, we introduce ClawTrojan, a benchmark designed to identify multi-step trojan attacks in local agentic harnesses. In an OpenClaw-style simulated workspace with GPT-5.4, ClawTrojan reaches a 95.5% attack success rate (ASR), while existing single-turn prompt-injection attacks produce near-zero ASR on the same model. To address this threat, we propose DASGuard, which scans control-like text in sensitive local files, traces its origin, and removes control content that does not originate from a trusted source. Our results show that DASGuard achieves strong dynamic defense by combining runtime attack blocking with sanitized commits to the workspace.