Mem-α: Apprendimento della Costruzione della Memoria tramite Apprendimento per Rinforzo
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
Autori: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono limitati da finestre di contesto ristrette, rendendo necessari sistemi di memoria esterni per la comprensione di informazioni a lungo termine. Gli attuali agenti potenziati dalla memoria dipendono tipicamente da istruzioni predefinite e strumenti per l'aggiornamento della memoria. Tuttavia, i modelli linguistici potrebbero non essere in grado di determinare quali informazioni memorizzare, come strutturarle e quando aggiornarle, specialmente man mano che i sistemi di memoria diventano più complessi. Ciò porta a una costruzione subottimale della memoria e a una perdita di informazioni. A tal fine, proponiamo Mem-alpha, un framework di apprendimento per rinforzo che addestra gli agenti a gestire efficacemente sistemi di memoria complessi attraverso l'interazione e il feedback. Costruiamo inoltre un dataset di addestramento specializzato che copre diversi modelli di interazione multi-turn, abbinati a domande di valutazione complete progettate per insegnare una gestione efficace della memoria. Durante l'addestramento, gli agenti elaborano sequenze di informazioni, imparano a estrarre e memorizzare contenuti rilevanti, quindi aggiornano il sistema di memoria. Il segnale di ricompensa deriva dall'accuratezza nella risposta alle domande sull'intera cronologia delle interazioni, ottimizzando direttamente la costruzione della memoria. Per dimostrare l'efficacia del nostro framework di addestramento, progettiamo un'architettura di memoria composta da componenti centrali, episodiche e semantiche, dotata di più strumenti per le operazioni di memoria. La valutazione empirica dimostra che Mem-alpha ottiene miglioramenti significativi rispetto ai baseline esistenti di agenti potenziati dalla memoria. Nonostante sia stato addestrato esclusivamente su istanze con una lunghezza massima di 30k token, i nostri agenti mostrano una notevole generalizzazione a sequenze che superano i 400k token, oltre 13 volte la lunghezza di addestramento, evidenziando la robustezza di Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.