AgentSys: Sichere und dynamische LLM-Agenten durch explizite hierarchische Speicherverwaltung

papers.abstract

Indirekte Prompt-Injektion bedroht LLM-Agenten, indem bösartige Anweisungen in externen Inhalten eingebettet werden, was unbefugte Aktionen und Datendiebstahl ermöglicht. LLM-Agenten halten ihren Arbeitszustand über ihr Kontextfenster aufrecht, das den Interaktionsverlauf für Entscheidungsfindungen speichert. Herkömmliche Agenten häufen wahllos alle Werkzeugausgaben und Denkprozesse in diesem Speicher an, was zwei kritische Schwachstellen schafft: (1) injizierte Anweisungen bleiben während des gesamten Workflows bestehen, was Angreifern mehrere Möglichkeiten zur Manipulation des Verhaltens bietet, und (2) ausufernde, nicht essentielle Inhalte beeinträchtigen die Entscheidungsfähigkeit. Bestehende Abwehrmechanismen behandeln den aufgeblähten Speicher als gegeben und konzentrieren sich darauf, widerstandsfähig zu bleiben, anstatt unnötige Anhäufung zu reduzieren, um den Angriff zu verhindern. Wir stellen AgentSys vor, ein Framework, das durch explizite Speicherverwaltung gegen indirekte Prompt-Injektion schützt. Inspiriert von der Prozessspeicher-Isolierung in Betriebssystemen organisiert AgentSys Agenten hierarchisch: Ein Haupt-Agent erzeugt Worker-Agenten für Werkzeugaufrufe, die jeweils in einem isolierten Kontext laufen und verschachtelte Worker für Teilaufgaben erzeugen können. Externe Daten und Teilaufgaben-Spuren gelangen niemals in den Speicher des Haupt-Agenten; nur schema-validierte Rückgabewerte können Grenzen durch deterministisches JSON-Parsing überschreiten. Ablationstests zeigen, dass Isolierung allein die Angriffserfolgsrate auf 2,19 % senkt, und die Hinzufügung eines Validators/Sanitizers verbessert die Abwehr weiter mit ereignisgesteuerten Prüfungen, deren Overhead mit Operationen skaliert statt mit der Kontextlänge. Auf AgentDojo und ASB erreicht AgentSys Angriffserfolgsraten von 0,78 % bzw. 4,25 % und verbessert gleichzeitig die Nutzbarkeit unter normalen Bedingungen leicht gegenüber ungeschützten Baselines. Es bleibt robust gegenüber adaptiven Angreifern und über verschiedene Foundation-Modelle hinweg, was zeigt, dass explizite Speicherverwaltung sichere, dynamische LLM-Agenten-Architekturen ermöglicht. Unser Code ist verfügbar unter: https://github.com/ruoyaow/agentsys-memory.

English

Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.

AgentSys: Sichere und dynamische LLM-Agenten durch explizite hierarchische Speicherverwaltung

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

papers.abstract

Support