ChatPaper.aiChatPaper

メモリとしての行動:長期的エージェントタスクのための自律的文脈キュレーション

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

October 14, 2025
著者: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI

要旨

大規模言語モデルは、長期的なエージェントタスクにおいて、制約されたメモリが雑多または無関係な文脈に容易に圧倒されるという課題に直面しています。既存のワーキングメモリ手法は、通常、エージェントのコアポリシーから切り離された外部のヒューリスティックなメカニズムに依存しています。本研究では、ワーキングメモリ管理を学習可能な内在的な能力として再定義します。我々は、エージェントが統一されたポリシーの一部として明示的な編集操作を実行することで、能動的にワーキングメモリを管理する新しいフレームワーク「Memory-as-Action」を提案します。この定式化により、強化学習によって訓練されたエージェントは、与えられたリソース制約の下で、メモリのキュレーションと長期的なタスク目標のバランスを取ることができます。しかし、このようなメモリ編集操作は、LLMインタラクションにおける連続的に成長するプレフィックスの標準的な仮定を破り、我々が「軌道の分断」と呼ぶ現象を引き起こします。これらの非プレフィックス変更は、標準的なポリシー勾配法に必要な因果的連続性を妨げ、それらの手法を適用不可能にします。この問題に対処するため、我々は新しいアルゴリズム「Dynamic Context Policy Optimization」を提案します。このアルゴリズムは、メモリアクションポイントで軌道を分割し、結果として得られるアクションセグメントに軌道レベルのアドバンテージを適用することで、安定したエンドツーエンドの強化学習を可能にします。我々の結果は、タスク推論とメモリ管理をエンドツーエンドで最適化することが、全体的な計算消費を削減するだけでなく、モデルの内在的な能力に適応した文脈キュレーション戦略によってタスク性能を向上させることを示しています。
English
Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.
PDF172February 7, 2026