La mémoire comme action : curation autonome du contexte pour les tâches agentiques à long horizon
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
October 14, 2025
papers.authors: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI
papers.abstract
Les modèles de langage de grande envergure (LLM) rencontrent des difficultés dans les tâches agentiques à long terme, car leur mémoire limitée est facilement submergée par un contexte distrayant ou non pertinent. Les méthodes existantes de gestion de la mémoire de travail reposent généralement sur des mécanismes externes et heuristiques, découplés de la politique centrale de l'agent. Dans ce travail, nous reformulons la gestion de la mémoire de travail comme une capacité intrinsèque et apprenable. Nous proposons un nouveau cadre, Mémoire-comme-Action, où un agent gère activement sa mémoire de travail en exécutant des opérations d'édition explicites dans le cadre d'une politique unifiée. Cette formulation permet à un agent, entraîné par apprentissage par renforcement, d'équilibrer la curation de la mémoire avec les objectifs de tâche à long terme sous des contraintes de ressources données. Cependant, ces actions d'édition de la mémoire brisent l'hypothèse standard d'un préfixe en croissance continue dans les interactions des LLM, conduisant à ce que nous appelons des fractures de trajectoire. Ces changements non-préfixés perturbent la continuité causale requise par les méthodes standard de gradient de politique, rendant ces méthodes inapplicables. Pour résoudre ce problème, nous proposons un nouvel algorithme, l'Optimisation de Politique à Contexte Dynamique, qui permet un apprentissage par renforcement stable de bout en bout en segmentant les trajectoires aux points d'action de mémoire et en appliquant des avantages au niveau de la trajectoire aux segments d'action résultants. Nos résultats démontrent que l'optimisation conjointe du raisonnement de tâche et de la gestion de la mémoire de manière end-to-end réduit non seulement la consommation computationnelle globale, mais améliore également la performance des tâches, grâce à des stratégies de curation de contexte adaptatives adaptées aux capacités intrinsèques du modèle.
English
Large Language Models face challenges in long-horizon agentic tasks as their
constrained memory is easily overwhelmed by distracting or irrelevant context.
Existing working memory methods typically rely on external, heuristic
mechanisms that are decoupled from the agent's core policy. In this work, we
reframe working memory management as a learnable, intrinsic capability. We
propose a novel framework, Memory-as-Action, where an agent actively manages
its working memory by executing explicit editing operations as part of a
unified policy. This formulation allows an agent, trained via reinforcement
learning, to balance memory curation against long-term task objectives under
given resource constraints. However, such memory editing actions break the
standard assumption of a continuously growing prefix in LLM interactions,
leading to what we call trajectory fractures. These non-prefix changes disrupt
the causal continuity required by standard policy gradient methods, making
those methods inapplicable. To address this, we propose a new algorithm,
Dynamic Context Policy Optimization, which enables stable end-to-end
reinforcement learning by segmenting trajectories at memory action points and
applying trajectory-level advantages to the resulting action segments. Our
results demonstrate that jointly optimizing for task reasoning and memory
management in an end-to-end fashion not only reduces overall computational
consumption but also improves task performance, driven by adaptive context
curation strategies tailored to the model's intrinsic capabilities.