ChatPaper.aiChatPaper

Memex(RL): Schaalvergroting van LLM-agenten met lange-termijnhorizon via Geïndexeerd Ervaringgeheugen

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

March 4, 2026
Auteurs: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
cs.AI

Samenvatting

Grootschalige taalmodel (LLM) agenten worden fundamenteel beperkt door eindige contextvensters bij langetermijntaken. Naarmate trajecten langer worden, wordt het bijhouden van tool-uitvoer en tussenredeneringen in de context al snel onhaalbaar: de werkcontext wordt onhanteerbaar lang, overschrijdt uiteindelijk het contextbudget en maakt ver verwijderde informatie moeilijker te gebruiken, zelfs wanneer deze nog aanwezig is. Bestaande oplossingen verkorten de context doorgaans via afkapping of lopende samenvattingen, maar deze methoden zijn fundamenteel lossy omdat ze eerder bewijs comprimeren of verwijderen. Wij introduceren Memex, een geïndexeerd ervaringsgeheugenmechanisme dat de context comprimeert zonder bewijs te verwijderen. Memex houdt een compacte werkcontext bij die bestaat uit beknopte gestructureerde samenvattingen en stabiele indexen, terwijl volledige onderliggende interacties worden opgeslagen in een externe ervaringsdatabase onder deze indexen. De agent kan vervolgens beslissen wanneer een index moet worden gederefereerd om het exacte, benodigde eerder bewijs voor het huidige subdoel terug te halen. We optimaliseren zowel schrijf- als leesgedrag met ons reinforcement learning-framework MemexRL, door middel van reward shaping afgestemd op geïndexeerd geheugengebruik binnen een contextbudget, zodat de agent leert wat samengevat moet worden, wat gearchiveerd moet worden, hoe het geïndexeerd moet worden en wanneer het opgehaald moet worden. Dit resulteert in een aanzienlijk minder lossy vorm van langetermijngeheugen dan benaderingen die alleen op samenvattingen vertrouwen. Verder bieden we een theoretische analyse die het potentieel toont van de Memex-lus om beslissingskwaliteit te behouden met begrensde dereferentie, terwijl de effectieve in-context berekening begrensd blijft naarmate de geschiedenis groeit. Empirisch gezien verbetert de met MemexRL getrainde Memex-agent op uitdagende langetermijntaken de taaksucces, terwijl een aanzienlijk kleinere werkcontext wordt gebruikt.
English
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.
PDF192March 17, 2026