Gedächtnis als Handlung: Autonome Kontextkuratierung für langfristige agentenbasierte Aufgaben
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
October 14, 2025
papers.authors: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI
papers.abstract
Große Sprachmodelle stehen vor Herausforderungen bei langfristigen agentenbasierten Aufgaben, da ihr begrenzter Speicher leicht durch ablenkenden oder irrelevanten Kontext überfordert wird. Bestehende Methoden für das Arbeitsgedächtnis basieren typischerweise auf externen, heuristischen Mechanismen, die vom Kern der Agentenpolitik entkoppelt sind. In dieser Arbeit betrachten wir das Management des Arbeitsgedächtnisses als eine erlernbare, intrinsische Fähigkeit neu. Wir schlagen ein neuartiges Framework vor, Memory-as-Action, in dem ein Agent sein Arbeitsgedächtnis aktiv verwaltet, indem er explizite Bearbeitungsoperationen als Teil einer einheitlichen Politik ausführt. Diese Formulierung ermöglicht es einem Agenten, der durch bestärkendes Lernen trainiert wird, die Kuratierung des Gedächtnisses gegen langfristige Aufgabenziele unter gegebenen Ressourcenbeschränkungen abzuwägen. Solche Gedächtnisbearbeitungsaktionen brechen jedoch die Standardannahme eines kontinuierlich wachsenden Präfixes in LLM-Interaktionen, was zu sogenannten Trajektorienbrüchen führt. Diese Nicht-Präfix-Änderungen stören die kausale Kontinuität, die von Standard-Policy-Gradienten-Methoden benötigt wird, und machen diese Methoden unanwendbar. Um dies zu adressieren, schlagen wir einen neuen Algorithmus vor, Dynamic Context Policy Optimization, der stabiles end-to-end bestärkendes Lernen ermöglicht, indem Trajektorien an Gedächtnisaktionspunkten segmentiert und Trajektorienebenen-Vorteile auf die resultierenden Aktionssegmente angewendet werden. Unsere Ergebnisse zeigen, dass die gemeinsame Optimierung von Aufgabenlogik und Gedächtnisverwaltung in einem end-to-end Ansatz nicht nur den gesamten Rechenaufwand reduziert, sondern auch die Aufgabenleistung verbessert, angetrieben durch adaptive Kontextkuratierungsstrategien, die auf die intrinsischen Fähigkeiten des Modells zugeschnitten sind.
English
Large Language Models face challenges in long-horizon agentic tasks as their
constrained memory is easily overwhelmed by distracting or irrelevant context.
Existing working memory methods typically rely on external, heuristic
mechanisms that are decoupled from the agent's core policy. In this work, we
reframe working memory management as a learnable, intrinsic capability. We
propose a novel framework, Memory-as-Action, where an agent actively manages
its working memory by executing explicit editing operations as part of a
unified policy. This formulation allows an agent, trained via reinforcement
learning, to balance memory curation against long-term task objectives under
given resource constraints. However, such memory editing actions break the
standard assumption of a continuously growing prefix in LLM interactions,
leading to what we call trajectory fractures. These non-prefix changes disrupt
the causal continuity required by standard policy gradient methods, making
those methods inapplicable. To address this, we propose a new algorithm,
Dynamic Context Policy Optimization, which enables stable end-to-end
reinforcement learning by segmenting trajectories at memory action points and
applying trajectory-level advantages to the resulting action segments. Our
results demonstrate that jointly optimizing for task reasoning and memory
management in an end-to-end fashion not only reduces overall computational
consumption but also improves task performance, driven by adaptive context
curation strategies tailored to the model's intrinsic capabilities.