AgentSys: Agentes de LLM Seguros e Dinâmicos por meio de Gerenciamento Explícito e Hierárquico de Memória

Resumo

A injeção indireta de instruções (indirect prompt injection) ameaça os agentes de LLM ao incorporar comandos maliciosos em conteúdo externo, permitindo ações não autorizadas e roubo de dados. Os agentes de LLM mantêm memória de trabalho através da sua janela de contexto, que armazena o histórico de interações para a tomada de decisões. Os agentes convencionais acumulam indiscriminadamente todos os resultados de ferramentas e rastros de raciocínio nesta memória, criando duas vulnerabilidades críticas: (1) as instruções injetadas persistem durante todo o fluxo de trabalho, concedendo aos atacantes múltiplas oportunidades para manipular o comportamento, e (2) conteúdo verboso e não essencial degrada as capacidades de decisão. As defesas existentes tratam a memória inchada como um dado adquirido e focam em permanecer resilientes, em vez de reduzir o acúmulo desnecessário para prevenir o ataque. Apresentamos o AgentSys, uma estrutura que se defende contra a injeção indireta de instruções através de gestão explícita de memória. Inspirado pelo isolamento de memória de processos em sistemas operativos, o AgentSys organiza os agentes hierarquicamente: um agente principal cria agentes trabalhadores (workers) para chamadas de ferramentas, cada um executando num contexto isolado e podendo criar workers aninhados para subtarefas. Os dados externos e os rastros das subtarefas nunca entram na memória do agente principal; apenas valores de retorno validados por esquema podem cruzar os limites através de análise JSON determinística. Ablações mostram que o isolamento por si só reduz o sucesso do ataque para 2,19%, e adicionar um validador/sanitizador melhora ainda mais a defesa com verificações acionadas por eventos, cuja sobrecarga escala com as operações e não com o comprimento do contexto. No AgentDojo e no ASB, o AgentSys alcança 2,78% e 4,25% de sucesso de ataque, enquanto melhora ligeiramente a utilidade em cenários benignos em relação às linhas de base indefesas. Mantém-se robusto contra atacantes adaptativos e em vários modelos base, demonstrando que a gestão explícita de memória permite arquiteturas de agentes de LLM dinâmicas e seguras. O nosso código está disponível em: https://github.com/ruoyaow/agentsys-memory.

English

Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.

AgentSys: Agentes de LLM Seguros e Dinâmicos por meio de Gerenciamento Explícito e Hierárquico de Memória

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Resumo

Support