Mem-α: Aprendizado da Construção de Memória via Aprendizado por Reforço
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
Autores: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
Resumo
Agentes de modelos de linguagem de grande escala (LLMs) são limitados por janelas de contexto restritas, necessitando de sistemas de memória externa para o entendimento de informações de longo prazo. Atualmente, agentes aprimorados por memória geralmente dependem de instruções e ferramentas pré-definidas para atualizações de memória. No entanto, modelos de linguagem podem não ter a capacidade de determinar quais informações armazenar, como estruturá-las e quando atualizá-las, especialmente à medida que os sistemas de memória se tornam mais complexos. Isso resulta em uma construção de memória subótima e perda de informações. Para isso, propomos o Mem-alpha, um framework de aprendizado por reforço que treina agentes para gerenciar efetivamente sistemas de memória complexos por meio de interação e feedback. Também construímos um conjunto de dados de treinamento especializado, abrangendo diversos padrões de interação multi-turnos, pareados com perguntas de avaliação abrangentes projetadas para ensinar o gerenciamento eficaz de memória. Durante o treinamento, os agentes processam sequências de informações, aprendem a extrair e armazenar conteúdo relevante e, em seguida, atualizam o sistema de memória. O sinal de recompensa deriva da precisão na resposta a perguntas ao longo de todo o histórico de interação, otimizando diretamente a construção da memória. Para ilustrar a eficácia do nosso framework de treinamento, projetamos uma arquitetura de memória composta por componentes centrais, episódicos e semânticos, equipada com múltiplas ferramentas para operações de memória. A avaliação empírica demonstra que o Mem-alpha alcança melhorias significativas em relação às linhas de base de agentes aprimorados por memória existentes. Apesar de serem treinados exclusivamente em instâncias com um comprimento máximo de 30 mil tokens, nossos agentes exibem uma generalização notável para sequências que excedem 400 mil tokens, mais de 13 vezes o comprimento de treinamento, destacando a robustez do Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.