Mem-α : Construction de mémoire par apprentissage via renforcement
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
papers.authors: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM) sont limités par des fenêtres de contexte restreintes, nécessitant des systèmes de mémoire externes pour une compréhension à long terme de l'information. Les agents actuels dotés de mémoire reposent généralement sur des instructions et des outils prédéfinis pour les mises à jour de la mémoire. Cependant, les modèles de langage peuvent manquer de la capacité à déterminer quelles informations stocker, comment les structurer et quand les mettre à jour, en particulier à mesure que les systèmes de mémoire deviennent plus complexes. Cela entraîne une construction de mémoire sous-optimale et une perte d'information. Pour remédier à cela, nous proposons Mem-alpha, un cadre d'apprentissage par renforcement qui forme les agents à gérer efficacement des systèmes de mémoire complexes grâce à l'interaction et au retour d'information. Nous construisons également un ensemble de données d'entraînement spécialisé couvrant divers schémas d'interaction multi-tours, associés à des questions d'évaluation complètes conçues pour enseigner une gestion efficace de la mémoire. Pendant l'entraînement, les agents traitent des segments d'information séquentiels, apprennent à extraire et à stocker le contenu pertinent, puis mettent à jour le système de mémoire. Le signal de récompense découle de la précision des réponses aux questions sur l'historique complet de l'interaction, optimisant directement la construction de la mémoire. Pour illustrer l'efficacité de notre cadre d'entraînement, nous concevons une architecture de mémoire comprenant des composants centraux, épisodiques et sémantiques, équipée de multiples outils pour les opérations de mémoire. L'évaluation empirique démontre que Mem-alpha obtient des améliorations significatives par rapport aux agents de référence dotés de mémoire. Bien qu'étant entraînés exclusivement sur des instances d'une longueur maximale de 30 000 tokens, nos agents montrent une généralisation remarquable à des séquences dépassant 400 000 tokens, soit plus de 13 fois la longueur d'entraînement, mettant en évidence la robustesse de Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.