Geheugen als Actie: Autonome Contextcuratie voor Langetermijn Agentieve Taken
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
October 14, 2025
Auteurs: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI
Samenvatting
Grote Taalmodellen ondervinden uitdagingen bij langetermijn agent-taken omdat hun beperkte geheugen gemakkelijk overweldigd raakt door afleidende of irrelevante context. Bestaande methoden voor werkgeheugen vertrouwen doorgaans op externe, heuristische mechanismen die losstaan van het kernbeleid van de agent. In dit werk herformuleren we werkgeheugenbeheer als een aanleerbare, intrinsieke capaciteit. We stellen een nieuw raamwerk voor, Geheugen-als-Actie, waarbij een agent actief zijn werkgeheugen beheert door expliciete bewerkingsoperaties uit te voeren als onderdeel van een geïntegreerd beleid. Deze formulering stelt een agent, getraind via reinforcement learning, in staat om geheugencuratie af te wegen tegen langetermijntaakdoelen onder gegeven resourcebeperkingen. Dergelijke geheugenbewerkingsacties doorbreken echter de standaard aanname van een continu groeiend voorvoegsel in LLM-interacties, wat leidt tot wat we trajectfracturen noemen. Deze niet-voorvoegselveranderingen verstoren de causale continuïteit die vereist is door standaard beleidsgradiëntmethoden, waardoor die methoden niet toepasbaar zijn. Om dit aan te pakken, stellen we een nieuw algoritme voor, Dynamische Context Beleidsoptimalisatie, dat stabiel end-to-end reinforcement learning mogelijk maakt door trajecten te segmenteren op geheugenactiepunten en trajectniveau-voordelen toe te passen op de resulterende actiesegmenten. Onze resultaten tonen aan dat het gezamenlijk optimaliseren van taakredenering en geheugenbeheer op een end-to-end manier niet alleen de totale computationele consumptie vermindert, maar ook de taakprestaties verbetert, gedreven door adaptieve contextcuratiestrategieën die zijn afgestemd op de intrinsieke capaciteiten van het model.
English
Large Language Models face challenges in long-horizon agentic tasks as their
constrained memory is easily overwhelmed by distracting or irrelevant context.
Existing working memory methods typically rely on external, heuristic
mechanisms that are decoupled from the agent's core policy. In this work, we
reframe working memory management as a learnable, intrinsic capability. We
propose a novel framework, Memory-as-Action, where an agent actively manages
its working memory by executing explicit editing operations as part of a
unified policy. This formulation allows an agent, trained via reinforcement
learning, to balance memory curation against long-term task objectives under
given resource constraints. However, such memory editing actions break the
standard assumption of a continuously growing prefix in LLM interactions,
leading to what we call trajectory fractures. These non-prefix changes disrupt
the causal continuity required by standard policy gradient methods, making
those methods inapplicable. To address this, we propose a new algorithm,
Dynamic Context Policy Optimization, which enables stable end-to-end
reinforcement learning by segmenting trajectories at memory action points and
applying trajectory-level advantages to the resulting action segments. Our
results demonstrate that jointly optimizing for task reasoning and memory
management in an end-to-end fashion not only reduces overall computational
consumption but also improves task performance, driven by adaptive context
curation strategies tailored to the model's intrinsic capabilities.