Memex(RL): Escalonando Agentes de LLM de Longo Horizonte por meio de Memória de Experiência Indexada

Resumo

Os agentes de modelos de linguagem de grande porte (LLM) enfrentam um gargalo fundamental devido a janelas de contexto finitas em tarefas de longo horizonte. À medida que as trajetórias se alongam, reter as saídas de ferramentas e o raciocínio intermediário no contexto rapidamente se torna inviável: o contexto de trabalho torna-se proibitivamente longo, excede eventualmente o orçamento de contexto e dificulta o uso de evidências distantes, mesmo quando estas ainda estão presentes. As soluções existentes normalmente encurtam o contexto através de truncamento ou resumos em execução, mas estes métodos são intrinsecamente com perdas porque comprimem ou descartam a própria evidência passada. Apresentamos o Memex, um mecanismo de memória de experiência indexada que, em vez disso, comprime o contexto sem descartar evidências. O Memex mantém um contexto de trabalho compacto, consistindo em resumos estruturados concisos e índices estáveis, enquanto armazena as interações subjacentes em alta fidelidade numa base de dados de experiência externa sob esses índices. O agente pode então decidir quando desreferenciar um índice e recuperar a evidência passada exata necessária para o subobjetivo atual. Otimizamos os comportamentos de escrita e leitura com a nossa estrutura de aprendizagem por reforço, MemexRL, utilizando uma modelação de recompensas adaptada ao uso de memória indexada sob um orçamento de contexto, para que o agente aprenda o que resumir, o que arquivar, como indexá-lo e quando recuperá-lo. Isto resulta numa forma de memória de longo horizonte substancialmente menos lossy do que as abordagens baseadas apenas em resumos. Fornecemos ainda uma análise teórica que mostra o potencial do ciclo Memex para preservar a qualidade da decisão com desreferenciação limitada, mantendo o cálculo efetivo em contexto limitado à medida que o histórico cresce. Empiricamente, em tarefas de longo horizonte desafiadoras, o agente Memex treinado com MemexRL melhora o sucesso da tarefa utilizando um contexto de trabalho significativamente menor.

English

Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.

Memex(RL): Escalonando Agentes de LLM de Longo Horizonte por meio de Memória de Experiência Indexada

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Resumo

Support