La memoria como acción: Curación autónoma de contexto para tareas agentivas de largo plazo
Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
October 14, 2025
Autores: Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin, Shangxi Wu, Jitao Sang
cs.AI
Resumen
Los modelos de lenguaje de gran escala enfrentan desafíos en tareas agentivas de largo horizonte, ya que su memoria limitada se ve fácilmente abrumada por contextos distractores o irrelevantes. Los métodos existentes de memoria de trabajo suelen depender de mecanismos externos y heurísticos que están desacoplados de la política central del agente. En este trabajo, replanteamos la gestión de la memoria de trabajo como una capacidad intrínseca y aprendible. Proponemos un marco novedoso, Memoria-como-Acción, donde un agente gestiona activamente su memoria de trabajo ejecutando operaciones explícitas de edición como parte de una política unificada. Esta formulación permite que un agente, entrenado mediante aprendizaje por refuerzo, equilibre la curación de la memoria con los objetivos de tarea a largo plazo bajo restricciones de recursos dadas. Sin embargo, tales acciones de edición de memoria rompen el supuesto estándar de un prefijo en continuo crecimiento en las interacciones de los modelos de lenguaje, lo que lleva a lo que llamamos fracturas de trayectoria. Estos cambios no prefijados interrumpen la continuidad causal requerida por los métodos estándar de gradiente de políticas, haciendo que esos métodos sean inaplicables. Para abordar esto, proponemos un nuevo algoritmo, Optimización de Política de Contexto Dinámico, que permite un aprendizaje por refuerzo estable de extremo a extremo segmentando trayectorias en puntos de acción de memoria y aplicando ventajas a nivel de trayectoria a los segmentos de acción resultantes. Nuestros resultados demuestran que optimizar conjuntamente el razonamiento de tareas y la gestión de la memoria de manera integral no solo reduce el consumo computacional general, sino que también mejora el rendimiento de la tarea, impulsado por estrategias adaptativas de curación de contexto diseñadas para las capacidades intrínsecas del modelo.
English
Large Language Models face challenges in long-horizon agentic tasks as their
constrained memory is easily overwhelmed by distracting or irrelevant context.
Existing working memory methods typically rely on external, heuristic
mechanisms that are decoupled from the agent's core policy. In this work, we
reframe working memory management as a learnable, intrinsic capability. We
propose a novel framework, Memory-as-Action, where an agent actively manages
its working memory by executing explicit editing operations as part of a
unified policy. This formulation allows an agent, trained via reinforcement
learning, to balance memory curation against long-term task objectives under
given resource constraints. However, such memory editing actions break the
standard assumption of a continuously growing prefix in LLM interactions,
leading to what we call trajectory fractures. These non-prefix changes disrupt
the causal continuity required by standard policy gradient methods, making
those methods inapplicable. To address this, we propose a new algorithm,
Dynamic Context Policy Optimization, which enables stable end-to-end
reinforcement learning by segmenting trajectories at memory action points and
applying trajectory-level advantages to the resulting action segments. Our
results demonstrate that jointly optimizing for task reasoning and memory
management in an end-to-end fashion not only reduces overall computational
consumption but also improves task performance, driven by adaptive context
curation strategies tailored to the model's intrinsic capabilities.