ChatPaper.aiChatPaper

Память как действие: автономное управление контекстом для долгосрочных агентных задач

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

October 14, 2025
Авторы: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI

Аннотация

Крупные языковые модели сталкиваются с трудностями в задачах, требующих долгосрочного планирования и автономного поведения, поскольку их ограниченная память легко перегружается отвлекающим или нерелевантным контекстом. Существующие методы работы с оперативной памятью обычно полагаются на внешние эвристические механизмы, которые отделены от основной политики агента. В данной работе мы переосмысливаем управление оперативной памятью как обучаемую внутреннюю способность. Мы предлагаем новую концепцию, «Память как действие», в которой агент активно управляет своей оперативной памятью, выполняя явные операции редактирования в рамках единой политики. Такой подход позволяет агенту, обученному с помощью методов обучения с подкреплением, балансировать между управлением памятью и долгосрочными целями задачи в условиях ограниченных ресурсов. Однако такие действия по редактированию памяти нарушают стандартное предположение о непрерывно растущем префиксе во взаимодействиях с языковыми моделями, что приводит к так называемым разрывам траекторий. Эти изменения, не связанные с префиксом, нарушают причинную непрерывность, необходимую для стандартных методов градиента политики, делая их неприменимыми. Для решения этой проблемы мы предлагаем новый алгоритм, Оптимизация политики динамического контекста, который обеспечивает стабильное сквозное обучение с подкреплением путем сегментации траекторий в точках действий с памятью и применения преимуществ на уровне траекторий к полученным сегментам действий. Наши результаты показывают, что совместная оптимизация для решения задач и управления памятью в сквозной манере не только снижает общее потребление вычислительных ресурсов, но и улучшает производительность задач благодаря адаптивным стратегиям управления контекстом, адаптированным к внутренним возможностям модели.
English
Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.
PDF142October 15, 2025