Memex(RL): Scalare Agenti LLM a Lungo Orizzonte tramite Memoria delle Esperienze Indicizzata
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
March 4, 2026
Autori: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) agenti sono fondamentalmente limitati dalle finestre di contesto finite nelle attività a lungo termine. Man mano che le traiettorie si allungano, diventa rapidamente impossibile mantenere in-context gli output degli strumenti e i ragionamenti intermedi: il contesto di lavoro diventa proibitivamente lungo, supera infine il budget di contesto e rende più difficile utilizzare evidenze lontane anche quando sono ancora presenti. Le soluzioni esistenti tipicamente accorciano il contesto tramite troncamento o riepiloghi in corso, ma questi metodi sono intrinsecamente lossy perché comprimono o scartano l'evidenza passata stessa. Introduciamo Memex, un meccanismo di memoria esperienziale indicizzata che, invece, comprime il contesto senza scartare evidenze. Memex mantiene un contesto di lavoro compatto costituito da riepiloghi strutturati concisi e indici stabili, mentre archivia le interazioni sottostanti a piena fedeltà in un database esperienziale esterno sotto tali indici. L'agente può quindi decidere quando dereferenziare un indice e recuperare l'esatta evidenza passata necessaria per il sottobiettivo corrente. Ottimizziamo sia i comportamenti di scrittura che di lettura con il nostro framework di apprendimento per rinforzo MemexRL, utilizzando una modellazione della ricompensa tailorizzata all'uso della memoria indicizzata sotto un budget di contesto, in modo che l'agente impari cosa riassumere, cosa archiviare, come indicizzarlo e quando recuperarlo. Ciò produce una forma di memoria a lungo termine sostanzialmente meno lossy rispetto agli approcci basati solo sui riepiloghi. Forniamo inoltre un'analisi teorica che mostra il potenziale del ciclo Memex di preservare la qualità decisionale con dereferenziazione limitata, mantenendo al contempo il calcolo in-context efficace limitato man mano che la cronologia cresce. Empiricamente, su compiti impegnativi a lungo termine, l'agente Memex addestrato con MemexRL migliora il successo del compito utilizzando un contesto di lavoro significativamente più piccolo.
English
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.