Mem-α: Apprendimento della Costruzione della Memoria tramite Apprendimento per Rinforzo

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono limitati da finestre di contesto ristrette, rendendo necessari sistemi di memoria esterni per la comprensione di informazioni a lungo termine. Gli attuali agenti potenziati dalla memoria dipendono tipicamente da istruzioni predefinite e strumenti per l'aggiornamento della memoria. Tuttavia, i modelli linguistici potrebbero non essere in grado di determinare quali informazioni memorizzare, come strutturarle e quando aggiornarle, specialmente man mano che i sistemi di memoria diventano più complessi. Ciò porta a una costruzione subottimale della memoria e a una perdita di informazioni. A tal fine, proponiamo Mem-alpha, un framework di apprendimento per rinforzo che addestra gli agenti a gestire efficacemente sistemi di memoria complessi attraverso l'interazione e il feedback. Costruiamo inoltre un dataset di addestramento specializzato che copre diversi modelli di interazione multi-turn, abbinati a domande di valutazione complete progettate per insegnare una gestione efficace della memoria. Durante l'addestramento, gli agenti elaborano sequenze di informazioni, imparano a estrarre e memorizzare contenuti rilevanti, quindi aggiornano il sistema di memoria. Il segnale di ricompensa deriva dall'accuratezza nella risposta alle domande sull'intera cronologia delle interazioni, ottimizzando direttamente la costruzione della memoria. Per dimostrare l'efficacia del nostro framework di addestramento, progettiamo un'architettura di memoria composta da componenti centrali, episodiche e semantiche, dotata di più strumenti per le operazioni di memoria. La valutazione empirica dimostra che Mem-alpha ottiene miglioramenti significativi rispetto ai baseline esistenti di agenti potenziati dalla memoria. Nonostante sia stato addestrato esclusivamente su istanze con una lunghezza massima di 30k token, i nostri agenti mostrano una notevole generalizzazione a sequenze che superano i 400k token, oltre 13 volte la lunghezza di addestramento, evidenziando la robustezza di Mem-alpha.

English

Large language model (LLM) agents are constrained by limited context windows, necessitating external memory systems for long-term information understanding. Current memory-augmented agents typically depend on pre-defined instructions and tools for memory updates. However, language models may lack the ability to determine which information to store, how to structure it, and when to update it, especially as memory systems become more complex. This results in suboptimal memory construction and information loss. To this end, we propose Mem-alpha, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. We also construct a specialized training dataset spanning diverse multi-turn interaction patterns paired with comprehensive evaluation questions designed to teach effective memory management. During training, agents process sequential information chunks, learn to extract and store relevant content, then update the memory system. The reward signal derives from downstream question-answering accuracy over the full interaction history, directly optimizing for memory construction. To illustrate the effectiveness of our training framework, we design a memory architecture comprising core, episodic, and semantic components, equipped with multiple tools for memory operations. Empirical evaluation demonstrates that Mem-alpha achieves significant improvements over existing memory-augmented agent baselines. Despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit remarkable generalization to sequences exceeding 400k tokens, over 13x the training length, highlighting the robustness of Mem-alpha.

Mem-α: Apprendimento della Costruzione della Memoria tramite Apprendimento per Rinforzo

Mem-α: Learning Memory Construction via Reinforcement Learning

Abstract

Support