ChatPaper.aiChatPaper

Memex(RL): Масштабирование агентов LLM с длинным горизонтом планирования с помощью индексированной памяти опыта

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

March 4, 2026
Авторы: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
cs.AI

Аннотация

Крупные языковые модели (LLM) как агенты принципиально ограничены конечными окнами контекста при выполнении задач с длительным горизонтом планирования. По мере роста траекторий сохранение результатов работы инструментов и промежуточных рассуждений в контексте быстро становится невозможным: рабочий контекст становится непомерно длинным, в конечном итоге превышает бюджет контекста и затрудняет использование удаленных свидетельств, даже если они все еще присутствуют. Существующие решения обычно сокращают контекст путем усечения или запуска суммаризации, но эти методы по своей сути являются потерями, поскольку сжимают или отбрасывают сами прошлые свидетельства. Мы представляем Memex — механизм индексированной памяти опыта, который, напротив, сжимает контекст, не отбрасывая свидетельства. Memex поддерживает компактный рабочий контекст, состоящий из лаконичных структурированных резюме и стабильных индексов, в то время как полные взаимодействия сохраняются во внешней базе данных опыта под этими индексами. Агент может затем решить, когда разыменовать индекс и восстановить точные прошлые свидетельства, необходимые для текущей подцели. Мы оптимизируем как поведение при записи, так и при чтении с помощью нашей фреймворка обучения с подкреплением MemexRL, используя формирование вознаграждения, адаптированное для работы с индексированной памятью в условиях ограниченного бюджета контекста, чтобы агент научился тому, что суммировать, что архивировать, как индексировать и когда извлекать. Это обеспечивает существенно менее потеречную форму долгосрочной памяти по сравнению с подходами, основанными только на суммаризации. Мы также предоставляем теоретический анализ, показывающий потенциал цикла Memex для сохранения качества решений при ограниченном разыменовании, одновременно удерживая эффективные вычисления в контексте ограниченными по мере роста истории. Экспериментально на сложных задачах с длительным горизонтом агент Memex, обученный с помощью MemexRL, демонстрирует повышение успешности выполнения задач при использовании значительно меньшего рабочего контекста.
English
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.
PDF112March 6, 2026