AgentSys : Agents LLM Sécurisés et Dynamiques par une Gestion Hiérarchique Explicite de la Mémoire

papers.abstract

L'injection indirecte d'invites menace les agents LLM en intégrant des instructions malveillantes dans du contenu externe, permettant des actions non autorisées et le vol de données. Les agents LLM maintiennent une mémoire de travail via leur fenêtre de contexte, qui stocke l'historique des interactions pour la prise de décision. Les agents conventionnels accumulent de manière indiscriminée toutes les sorties d'outils et les traces de raisonnement dans cette mémoire, créant deux vulnérabilités critiques : (1) les instructions injectées persistent tout au long du flux de travail, offrant aux attaquants de multiples opportunités de manipulation, et (2) le contenu verbeux et non essentiel dégrade les capacités décisionnelles. Les défenses existantes considèrent la mémoire gonflée comme acquise et se concentrent sur la résilience, plutôt que de réduire l'accumulation inutile pour prévenir l'attaque. Nous présentons AgentSys, un cadre qui se défend contre l'injection indirecte d'invites via une gestion explicite de la mémoire. Inspiré par l'isolation de la mémoire des processus dans les systèmes d'exploitation, AgentSys organise les agents hiérarchiquement : un agent principal génère des agents travailleurs pour les appels d'outils, chacun s'exécutant dans un contexte isolé et pouvant générer des travailleurs imbriqués pour les sous-tâches. Les données externes et les traces des sous-tâches n'entrent jamais dans la mémoire de l'agent principal ; seules les valeurs de retour validées par schéma peuvent franchir les frontières via un parsing JSON déterministe. Des ablations montrent que l'isolation seule réduit le succès des attaques à 2,19 %, et l'ajout d'un validateur/nettoyeur améliore la défense avec des vérifications déclenchées par événements dont la surcharge évolue avec les opérations plutôt qu'avec la longueur du contexte. Sur AgentDojo et ASB, AgentSys atteint un taux de succès d'attaque de 0,78 % et 4,25 % tout en améliorant légèrement l'utilité bénigne par rapport aux bases non défendues. Il reste robuste face aux attaquants adaptatifs et sur plusieurs modèles de base, montrant que la gestion explicite de la mémoire permet des architectures d'agents LLM dynamiques et sécurisées. Notre code est disponible à l'adresse : https://github.com/ruoyaow/agentsys-memory.

English

Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.

AgentSys : Agents LLM Sécurisés et Dynamiques par une Gestion Hiérarchique Explicite de la Mémoire

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

papers.abstract

Support