Memória como Ação: Curadoria Autônoma de Contexto para Tarefas Agênticas de Longo Prazo
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
October 14, 2025
Autores: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala enfrentam desafios em tarefas agentivas de longo horizonte, pois sua memória limitada é facilmente sobrecarregada por contextos distrativos ou irrelevantes. Os métodos existentes de memória de trabalho geralmente dependem de mecanismos externos e heurísticos que estão desacoplados da política central do agente. Neste trabalho, reformulamos o gerenciamento da memória de trabalho como uma capacidade intrínseca e aprendível. Propomos um novo framework, Memória-como-Ação, onde um agente gerencia ativamente sua memória de trabalho executando operações explícitas de edição como parte de uma política unificada. Essa formulação permite que um agente, treinado por meio de aprendizado por reforço, equilibre a curadoria da memória com os objetivos de longo prazo da tarefa, considerando as restrições de recursos disponíveis. No entanto, tais ações de edição de memória quebram a suposição padrão de um prefixo continuamente crescente nas interações de LLM, levando ao que chamamos de fraturas de trajetória. Essas alterações que não seguem o padrão de prefixo perturbam a continuidade causal exigida pelos métodos padrão de gradiente de política, tornando esses métodos inaplicáveis. Para resolver isso, propomos um novo algoritmo, Otimização de Política de Contexto Dinâmico, que permite um aprendizado por reforço estável de ponta a ponta, segmentando trajetórias nos pontos de ação de memória e aplicando vantagens em nível de trajetória aos segmentos de ação resultantes. Nossos resultados demonstram que a otimização conjunta para raciocínio de tarefa e gerenciamento de memória de forma integrada não apenas reduz o consumo computacional geral, mas também melhora o desempenho da tarefa, impulsionado por estratégias adaptativas de curadoria de contexto ajustadas às capacidades intrínsecas do modelo.
English
Large Language Models face challenges in long-horizon agentic tasks as their
constrained memory is easily overwhelmed by distracting or irrelevant context.
Existing working memory methods typically rely on external, heuristic
mechanisms that are decoupled from the agent's core policy. In this work, we
reframe working memory management as a learnable, intrinsic capability. We
propose a novel framework, Memory-as-Action, where an agent actively manages
its working memory by executing explicit editing operations as part of a
unified policy. This formulation allows an agent, trained via reinforcement
learning, to balance memory curation against long-term task objectives under
given resource constraints. However, such memory editing actions break the
standard assumption of a continuously growing prefix in LLM interactions,
leading to what we call trajectory fractures. These non-prefix changes disrupt
the causal continuity required by standard policy gradient methods, making
those methods inapplicable. To address this, we propose a new algorithm,
Dynamic Context Policy Optimization, which enables stable end-to-end
reinforcement learning by segmenting trajectories at memory action points and
applying trajectory-level advantages to the resulting action segments. Our
results demonstrate that jointly optimizing for task reasoning and memory
management in an end-to-end fashion not only reduces overall computational
consumption but also improves task performance, driven by adaptive context
curation strategies tailored to the model's intrinsic capabilities.