Memex(RL): Skalierung von Agenten mit großen Sprachmodellen für langfristige Horizonte durch indizierten Erfahrungsspeicher

Zusammenfassung

Große Sprachmodell-Agenten (LLM-Agenten) werden bei langfristigen Aufgaben grundsätzlich durch begrenzte Kontextfenster eingeschränkt. Mit zunehmenden Trajektorien wird es schnell unmöglich, Werkzeugausgaben und Zwischenüberlegungen im Kontext zu behalten: Der Arbeitskontext wird unverhältnismäßig lang, überschreitet schließlich das Kontextbudget und erschwert die Nutzung entfernter Evidenz, selbst wenn diese noch vorhanden ist. Bestehende Lösungen verkürzen den Kontext typischerweise durch Kürzung oder laufende Zusammenfassungen, doch diese Methoden sind grundsätzlich verlustbehaftet, da sie vergangene Evidenz selbst komprimieren oder verwerfen. Wir stellen Memex vor, einen Mechanismus für indizierte Erfahrungsspeicherung, der den Kontext komprimiert, ohne Evidenz zu verwerfen. Memex verwaltet einen kompakten Arbeitskontext, der aus prägnanten strukturierten Zusammenfassungen und stabilen Indizes besteht, während vollständige zugrundeliegende Interaktionen unter diesen Indizes in einer externen Erfahrungsdatenbank gespeichert werden. Der Agent kann dann entscheiden, wann er einen Index dereferenzieren und die exakte vergangene Evidenz abrufen muss, die für das aktuelle Teilziel benötigt wird. Wir optimieren sowohl Schreib- als auch Lesevorgänge mit unserem Reinforcement-Learning-Framework MemexRL, das durch Belohnungsgestaltung speziell für die Nutzung indizierter Speicher unter einem Kontextbudget den Agenten lernt, was zusammenzufassen, was zu archivieren, wie es zu indizieren und wann es abzurufen ist. Dies führt zu einer wesentlich weniger verlustbehafteten Form von Langzeitgedächtnis als rein zusammenfassungsbasierte Ansätze. Wir liefern weiterhin eine theoretische Analyse, die das Potenzial der Memex-Schleife aufzeigt, die Entscheidungsqualität bei begrenzter Dereferenzierung zu erhalten und gleichzeitig die effektive Kontextberechnung zu begrenzen, während der Verlauf wächst. Empirisch zeigt sich, dass der mit MemexRL trainierte Memex-Agent bei anspruchsvollen langfristigen Aufgaben die Aufgabenbewältigung verbessert und dabei einen signifikant kleineren Arbeitskontext verwendet.

English

Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.

Memex(RL): Skalierung von Agenten mit großen Sprachmodellen für langfristige Horizonte durch indizierten Erfahrungsspeicher

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Zusammenfassung

Support