ChatPaper.aiChatPaper

Memex(RL): Escalado de Agentes LLM de Horizonte Largo mediante Memoria de Experiencias Indexada

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

March 4, 2026
Autores: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
cs.AI

Resumen

Los agentes de modelos de lenguaje grandes (LLM) se enfrentan a un cuello de botella fundamental debido a las ventanas de contexto finitas en tareas de horizonte largo. A medida que las trayectorias crecen, retener las salidas de herramientas y el razonamiento intermedio en contexto rápidamente se vuelve inviable: el contexto de trabajo se vuelve prohibitivamente largo, eventualmente excede el presupuesto de contexto y dificulta el uso de evidencias distantes incluso cuando aún están presentes. Las soluciones existentes suelen acortar el contexto mediante truncamiento o resúmenes continuos, pero estos métodos son inherentemente con pérdidas porque comprimen o descartan la evidencia pasada en sí. Presentamos Memex, un mecanismo de memoria de experiencia indexada que, en cambio, comprime el contexto sin descartar evidencia. Memex mantiene un contexto de trabajo compacto que consiste en resúmenes estructurados concisos e índices estables, mientras almacena las interacciones subyacentes en su totalidad fidedigna en una base de datos de experiencia externa bajo esos índices. El agente puede entonces decidir cuándo desreferenciar un índice y recuperar la evidencia pasada exacta necesaria para el subobjetivo actual. Optimizamos tanto los comportamientos de escritura como de lectura con nuestro marco de aprendizaje por refuerzo MemexRL, utilizando una configuración de recompensas adaptada al uso de memoria indexada bajo un presupuesto de contexto, para que el agente aprenda qué resumir, qué archivar, cómo indexarlo y cuándo recuperarlo. Esto produce una forma de memoria de horizonte largo sustancialmente menos pérdida que los enfoques basados únicamente en resúmenes. Además, proporcionamos un análisis teórico que muestra el potencial del bucle Memex para preservar la calidad de las decisiones con desreferenciación acotada, manteniendo acotado el cómputo efectivo en contexto a medida que crece el historial. Empíricamente, en tareas desafiantes de horizonte largo, el agente Memex entrenado con MemexRL mejora el éxito en la tarea mientras utiliza un contexto de trabajo significativamente más pequeño.
English
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.
PDF112March 6, 2026