La memoria como acción: Curación autónoma de contexto para tareas agentivas de largo plazo

Resumen

Los modelos de lenguaje de gran escala enfrentan desafíos en tareas agentivas de largo horizonte, ya que su memoria limitada se ve fácilmente abrumada por contextos distractores o irrelevantes. Los métodos existentes de memoria de trabajo suelen depender de mecanismos externos y heurísticos que están desacoplados de la política central del agente. En este trabajo, replanteamos la gestión de la memoria de trabajo como una capacidad intrínseca y aprendible. Proponemos un marco novedoso, Memoria-como-Acción, donde un agente gestiona activamente su memoria de trabajo ejecutando operaciones explícitas de edición como parte de una política unificada. Esta formulación permite que un agente, entrenado mediante aprendizaje por refuerzo, equilibre la curación de la memoria con los objetivos de tarea a largo plazo bajo restricciones de recursos dadas. Sin embargo, tales acciones de edición de memoria rompen el supuesto estándar de un prefijo en continuo crecimiento en las interacciones de los modelos de lenguaje, lo que lleva a lo que llamamos fracturas de trayectoria. Estos cambios no prefijados interrumpen la continuidad causal requerida por los métodos estándar de gradiente de políticas, haciendo que esos métodos sean inaplicables. Para abordar esto, proponemos un nuevo algoritmo, Optimización de Política de Contexto Dinámico, que permite un aprendizaje por refuerzo estable de extremo a extremo segmentando trayectorias en puntos de acción de memoria y aplicando ventajas a nivel de trayectoria a los segmentos de acción resultantes. Nuestros resultados demuestran que optimizar conjuntamente el razonamiento de tareas y la gestión de la memoria de manera integral no solo reduce el consumo computacional general, sino que también mejora el rendimiento de la tarea, impulsado por estrategias adaptativas de curación de contexto diseñadas para las capacidades intrínsecas del modelo.

English

Large Language Models face challenges in long-horizon agentic tasks as their constrained memory is easily overwhelmed by distracting or irrelevant context. Existing working memory methods typically rely on external, heuristic mechanisms that are decoupled from the agent's core policy. In this work, we reframe working memory management as a learnable, intrinsic capability. We propose a novel framework, Memory-as-Action, where an agent actively manages its working memory by executing explicit editing operations as part of a unified policy. This formulation allows an agent, trained via reinforcement learning, to balance memory curation against long-term task objectives under given resource constraints. However, such memory editing actions break the standard assumption of a continuously growing prefix in LLM interactions, leading to what we call trajectory fractures. These non-prefix changes disrupt the causal continuity required by standard policy gradient methods, making those methods inapplicable. To address this, we propose a new algorithm, Dynamic Context Policy Optimization, which enables stable end-to-end reinforcement learning by segmenting trajectories at memory action points and applying trajectory-level advantages to the resulting action segments. Our results demonstrate that jointly optimizing for task reasoning and memory management in an end-to-end fashion not only reduces overall computational consumption but also improves task performance, driven by adaptive context curation strategies tailored to the model's intrinsic capabilities.

La memoria como acción: Curación autónoma de contexto para tareas agentivas de largo plazo

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

Resumen

Support