Mem-α: Geheugenconstructie leren via Reinforcement Learning

Samenvatting

Grote taalmodellen (LLM) agents worden beperkt door beperkte contextvensters, waardoor externe geheugensystemen nodig zijn voor langetermijninformatiebegrip. Huidige geheugenversterkte agents zijn doorgaans afhankelijk van vooraf gedefinieerde instructies en tools voor geheugenupdates. Taalmodellen hebben echter mogelijk niet het vermogen om te bepalen welke informatie moet worden opgeslagen, hoe deze gestructureerd moet worden en wanneer deze moet worden bijgewerkt, vooral naarmate geheugensystemen complexer worden. Dit resulteert in suboptimale geheugenconstructie en informatieverlies. Daarom stellen we Mem-alpha voor, een reinforcement learning-framework dat agents traint om complexe geheugensystemen effectief te beheren door interactie en feedback. We construeren ook een gespecialiseerde trainingsdataset die diverse meerzijdige interactiepatronen omvat, gekoppeld aan uitgebreide evaluatievragen die zijn ontworpen om effectief geheugenbeheer aan te leren. Tijdens de training verwerken agents sequentiële informatiebrokken, leren ze relevante inhoud te extraheren en op te slaan, en werken ze vervolgens het geheugensysteem bij. Het beloningssignaal is afgeleid van de nauwkeurigheid van vraag-antwoordtaken over de volledige interactiegeschiedenis, wat direct optimaliseert voor geheugenconstructie. Om de effectiviteit van ons trainingsframework te illustreren, ontwerpen we een geheugenarchitectuur bestaande uit kern-, episodische en semantische componenten, uitgerust met meerdere tools voor geheugenoperaties. Empirische evaluatie toont aan dat Mem-alpha aanzienlijke verbeteringen bereikt ten opzichte van bestaande geheugenversterkte agent-baselines. Ondanks dat ze uitsluitend zijn getraind op instanties met een maximale lengte van 30k tokens, vertonen onze agents opmerkelijke generalisatie naar sequenties die 400k tokens overschrijden, meer dan 13 keer de trainingslengte, wat de robuustheid van Mem-alpha benadrukt.

English

Large language model (LLM) agents are constrained by limited context windows, necessitating external memory systems for long-term information understanding. Current memory-augmented agents typically depend on pre-defined instructions and tools for memory updates. However, language models may lack the ability to determine which information to store, how to structure it, and when to update it, especially as memory systems become more complex. This results in suboptimal memory construction and information loss. To this end, we propose Mem-alpha, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. We also construct a specialized training dataset spanning diverse multi-turn interaction patterns paired with comprehensive evaluation questions designed to teach effective memory management. During training, agents process sequential information chunks, learn to extract and store relevant content, then update the memory system. The reward signal derives from downstream question-answering accuracy over the full interaction history, directly optimizing for memory construction. To illustrate the effectiveness of our training framework, we design a memory architecture comprising core, episodic, and semantic components, equipped with multiple tools for memory operations. Empirical evaluation demonstrates that Mem-alpha achieves significant improvements over existing memory-augmented agent baselines. Despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit remarkable generalization to sequences exceeding 400k tokens, over 13x the training length, highlighting the robustness of Mem-alpha.

Mem-α: Geheugenconstructie leren via Reinforcement Learning

Mem-α: Learning Memory Construction via Reinforcement Learning

Samenvatting

Support