Mem-α: Geheugenconstructie leren via Reinforcement Learning
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
Auteurs: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
Samenvatting
Grote taalmodellen (LLM) agents worden beperkt door beperkte contextvensters, waardoor externe geheugensystemen nodig zijn voor langetermijninformatiebegrip. Huidige geheugenversterkte agents zijn doorgaans afhankelijk van vooraf gedefinieerde instructies en tools voor geheugenupdates. Taalmodellen hebben echter mogelijk niet het vermogen om te bepalen welke informatie moet worden opgeslagen, hoe deze gestructureerd moet worden en wanneer deze moet worden bijgewerkt, vooral naarmate geheugensystemen complexer worden. Dit resulteert in suboptimale geheugenconstructie en informatieverlies. Daarom stellen we Mem-alpha voor, een reinforcement learning-framework dat agents traint om complexe geheugensystemen effectief te beheren door interactie en feedback. We construeren ook een gespecialiseerde trainingsdataset die diverse meerzijdige interactiepatronen omvat, gekoppeld aan uitgebreide evaluatievragen die zijn ontworpen om effectief geheugenbeheer aan te leren. Tijdens de training verwerken agents sequentiële informatiebrokken, leren ze relevante inhoud te extraheren en op te slaan, en werken ze vervolgens het geheugensysteem bij. Het beloningssignaal is afgeleid van de nauwkeurigheid van vraag-antwoordtaken over de volledige interactiegeschiedenis, wat direct optimaliseert voor geheugenconstructie. Om de effectiviteit van ons trainingsframework te illustreren, ontwerpen we een geheugenarchitectuur bestaande uit kern-, episodische en semantische componenten, uitgerust met meerdere tools voor geheugenoperaties. Empirische evaluatie toont aan dat Mem-alpha aanzienlijke verbeteringen bereikt ten opzichte van bestaande geheugenversterkte agent-baselines. Ondanks dat ze uitsluitend zijn getraind op instanties met een maximale lengte van 30k tokens, vertonen onze agents opmerkelijke generalisatie naar sequenties die 400k tokens overschrijden, meer dan 13 keer de trainingslengte, wat de robuustheid van Mem-alpha benadrukt.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.