Memex(RL) : Mise à l'échelle d'agents LLM à long horizon via une mémoire d'expérience indexée
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
March 4, 2026
Auteurs: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
cs.AI
Résumé
Les agents de modèles de langage de grande taille (LLM) sont fondamentalement limités par des fenêtres de contexte finies lors de tâches à long horizon. À mesure que les trajectoires s'allongent, la conservation en contexte des sorties d'outils et des raisonnements intermédiaires devient rapidement impossible : le contexte de travail devient prohibitivement long, finit par dépasser le budget de contexte et rend l'utilisation de preuves distantes plus difficile, même lorsqu'elles sont encore présentes. Les solutions existantes raccourcissent généralement le contexte par troncation ou par des résumés dynamiques, mais ces méthodes sont intrinsèquement avec perte car elles compressent ou suppriment les preuves passées elles-mêmes. Nous présentons Memex, un mécanisme de mémoire d'expérience indexée qui compresse le contexte sans supprimer les preuves. Memex maintient un contexte de travail compact composé de résumés structurés concis et d'indices stables, tout en stockant les interactions sous-jacentes en haute fidélité dans une base de données d'expérience externe sous ces indices. L'agent peut ensuite décider quand déréférencer un indice pour récupérer la preuve passée exacte nécessaire au sous-objectif en cours. Nous optimisons les comportements d'écriture et de lecture avec notre cadre d'apprentissage par renforcement MemexRL, en utilisant un façonnage de récompense adapté à l'utilisation de mémoire indexée sous un budget de contexte, afin que l'agent apprenne quoi résumer, quoi archiver, comment l'indexer et quand le récupérer. Cela permet une forme de mémoire à long horizon substantiellement moins sujette aux pertes que les approches basées uniquement sur les résumés. Nous fournissons en outre une analyse théorique montrant le potentiel de la boucle Memex à préserver la qualité décisionnelle avec un déréférencement borné tout en maintenant le calcul en contexte effectif borné malgré l'allongement de l'historique. Empiriquement, sur des tâches difficiles à long horizon, l'agent Memex entraîné avec MemexRL améliore le succès des tâches tout en utilisant un contexte de travail significativement plus réduit.
English
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.