ChatPaper.aiChatPaper

Memoria come Azione: Cura Autonoma del Contesto per Compiti Agenti a Lungo Orizzonte

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

October 14, 2025
Autori: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI

Abstract

I modelli linguistici di grandi dimensioni affrontano sfide nei compiti agentici a lungo termine, poiché la loro memoria limitata viene facilmente sopraffatta da contesti distraenti o irrilevanti. I metodi esistenti per la memoria di lavoro si basano tipicamente su meccanismi esterni ed euristici che sono disaccoppiati dalla politica principale dell'agente. In questo lavoro, riformuliamo la gestione della memoria di lavoro come una capacità intrinseca e apprendibile. Proponiamo un nuovo framework, Memory-as-Action, in cui un agente gestisce attivamente la propria memoria di lavoro eseguendo operazioni esplicite di modifica come parte di una politica unificata. Questa formulazione consente a un agente, addestrato tramite apprendimento per rinforzo, di bilanciare la cura della memoria rispetto agli obiettivi a lungo termine del compito, dati i vincoli di risorse. Tuttavia, tali azioni di modifica della memoria infrangono l'assunzione standard di un prefisso in continua crescita nelle interazioni dei modelli linguistici, portando a quello che chiamiamo fratture di traiettoria. Questi cambiamenti non prefissati interrompono la continuità causale richiesta dai metodi standard del gradiente della politica, rendendo tali metodi inapplicabili. Per affrontare questo problema, proponiamo un nuovo algoritmo, Dynamic Context Policy Optimization, che consente un apprendimento per rinforzo end-to-end stabile segmentando le traiettorie nei punti di azione della memoria e applicando vantaggi a livello di traiettoria ai segmenti di azione risultanti. I nostri risultati dimostrano che l'ottimizzazione congiunta del ragionamento sul compito e della gestione della memoria in modo end-to-end non solo riduce il consumo computazionale complessivo, ma migliora anche le prestazioni del compito, guidata da strategie adattive di cura del contesto personalizzate in base alle capacità intrinseche del modello.
English
Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.
PDF142October 15, 2025