Mem-α: Gedächtniskonstruktion durch bestärkendes Lernen
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
papers.authors: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
papers.abstract
Große Sprachmodell-Agenten (LLM-Agenten) sind durch begrenzte Kontextfenster eingeschränkt, was externe Speichersysteme für das langfristige Verständnis von Informationen erforderlich macht. Aktuelle speichererweiterte Agenten verlassen sich typischerweise auf vordefinierte Anweisungen und Werkzeuge für Speicheraktualisierungen. Sprachmodelle können jedoch oft nicht bestimmen, welche Informationen gespeichert werden sollen, wie sie strukturiert werden sollen und wann sie aktualisiert werden sollen, insbesondere wenn die Speichersysteme komplexer werden. Dies führt zu suboptimaler Speicherkonstruktion und Informationsverlust. Daher schlagen wir Mem-alpha vor, ein Reinforcement-Learning-Framework, das Agenten trainiert, komplexe Speichersysteme effektiv durch Interaktion und Feedback zu verwalten. Wir erstellen außerdem einen spezialisierten Trainingsdatensatz, der diverse mehrstufige Interaktionsmuster umfasst, die mit umfassenden Evaluationsfragen gepaart sind, die darauf abzielen, effektives Speichermanagement zu vermitteln. Während des Trainings verarbeiten Agenten sequenzielle Informationsblöcke, lernen relevante Inhalte zu extrahieren und zu speichern und aktualisieren dann das Speichersystem. Das Belohnungssignal leitet sich aus der Genauigkeit der nachgelagerten Frage-Antwort-Aufgaben über den gesamten Interaktionsverlauf ab und optimiert direkt die Speicherkonstruktion. Um die Effektivität unseres Trainingsframeworks zu veranschaulichen, entwerfen wir eine Speicherarchitektur, die Kern-, episodische und semantische Komponenten umfasst und mit mehreren Werkzeugen für Speicheroperationen ausgestattet ist. Empirische Auswertungen zeigen, dass Mem-alpha signifikante Verbesserungen gegenüber bestehenden speichererweiterten Agenten-Baselines erzielt. Obwohl die Agenten ausschließlich an Instanzen mit einer maximalen Länge von 30.000 Token trainiert wurden, zeigen sie eine bemerkenswerte Generalisierungsfähigkeit für Sequenzen, die 400.000 Token überschreiten – mehr als das 13-fache der Trainingslänge – was die Robustheit von Mem-alpha unterstreicht.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.