Gedächtnis als Handlung: Autonome Kontextkuratierung für langfristige agentenbasierte Aufgaben

papers.abstract

Große Sprachmodelle stehen vor Herausforderungen bei langfristigen agentenbasierten Aufgaben, da ihr begrenzter Speicher leicht durch ablenkenden oder irrelevanten Kontext überfordert wird. Bestehende Methoden für das Arbeitsgedächtnis basieren typischerweise auf externen, heuristischen Mechanismen, die vom Kern der Agentenpolitik entkoppelt sind. In dieser Arbeit betrachten wir das Management des Arbeitsgedächtnisses als eine erlernbare, intrinsische Fähigkeit neu. Wir schlagen ein neuartiges Framework vor, Memory-as-Action, in dem ein Agent sein Arbeitsgedächtnis aktiv verwaltet, indem er explizite Bearbeitungsoperationen als Teil einer einheitlichen Politik ausführt. Diese Formulierung ermöglicht es einem Agenten, der durch bestärkendes Lernen trainiert wird, die Kuratierung des Gedächtnisses gegen langfristige Aufgabenziele unter gegebenen Ressourcenbeschränkungen abzuwägen. Solche Gedächtnisbearbeitungsaktionen brechen jedoch die Standardannahme eines kontinuierlich wachsenden Präfixes in LLM-Interaktionen, was zu sogenannten Trajektorienbrüchen führt. Diese Nicht-Präfix-Änderungen stören die kausale Kontinuität, die von Standard-Policy-Gradienten-Methoden benötigt wird, und machen diese Methoden unanwendbar. Um dies zu adressieren, schlagen wir einen neuen Algorithmus vor, Dynamic Context Policy Optimization, der stabiles end-to-end bestärkendes Lernen ermöglicht, indem Trajektorien an Gedächtnisaktionspunkten segmentiert und Trajektorienebenen-Vorteile auf die resultierenden Aktionssegmente angewendet werden. Unsere Ergebnisse zeigen, dass die gemeinsame Optimierung von Aufgabenlogik und Gedächtnisverwaltung in einem end-to-end Ansatz nicht nur den gesamten Rechenaufwand reduziert, sondern auch die Aufgabenleistung verbessert, angetrieben durch adaptive Kontextkuratierungsstrategien, die auf die intrinsischen Fähigkeiten des Modells zugeschnitten sind.

English

Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.

Gedächtnis als Handlung: Autonome Kontextkuratierung für langfristige agentenbasierte Aufgaben

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

papers.abstract

Support