ChatPaper.aiChatPaper

Mem-α: Aprendizado da Construção de Memória via Aprendizado por Reforço

Mem-α: Learning Memory Construction via Reinforcement Learning

September 30, 2025
Autores: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI

Resumo

Agentes de modelos de linguagem de grande escala (LLMs) são limitados por janelas de contexto restritas, necessitando de sistemas de memória externa para o entendimento de informações de longo prazo. Atualmente, agentes aprimorados por memória geralmente dependem de instruções e ferramentas pré-definidas para atualizações de memória. No entanto, modelos de linguagem podem não ter a capacidade de determinar quais informações armazenar, como estruturá-las e quando atualizá-las, especialmente à medida que os sistemas de memória se tornam mais complexos. Isso resulta em uma construção de memória subótima e perda de informações. Para isso, propomos o Mem-alpha, um framework de aprendizado por reforço que treina agentes para gerenciar efetivamente sistemas de memória complexos por meio de interação e feedback. Também construímos um conjunto de dados de treinamento especializado, abrangendo diversos padrões de interação multi-turnos, pareados com perguntas de avaliação abrangentes projetadas para ensinar o gerenciamento eficaz de memória. Durante o treinamento, os agentes processam sequências de informações, aprendem a extrair e armazenar conteúdo relevante e, em seguida, atualizam o sistema de memória. O sinal de recompensa deriva da precisão na resposta a perguntas ao longo de todo o histórico de interação, otimizando diretamente a construção da memória. Para ilustrar a eficácia do nosso framework de treinamento, projetamos uma arquitetura de memória composta por componentes centrais, episódicos e semânticos, equipada com múltiplas ferramentas para operações de memória. A avaliação empírica demonstra que o Mem-alpha alcança melhorias significativas em relação às linhas de base de agentes aprimorados por memória existentes. Apesar de serem treinados exclusivamente em instâncias com um comprimento máximo de 30 mil tokens, nossos agentes exibem uma generalização notável para sequências que excedem 400 mil tokens, mais de 13 vezes o comprimento de treinamento, destacando a robustez do Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows, necessitating external memory systems for long-term information understanding. Current memory-augmented agents typically depend on pre-defined instructions and tools for memory updates. However, language models may lack the ability to determine which information to store, how to structure it, and when to update it, especially as memory systems become more complex. This results in suboptimal memory construction and information loss. To this end, we propose Mem-alpha, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. We also construct a specialized training dataset spanning diverse multi-turn interaction patterns paired with comprehensive evaluation questions designed to teach effective memory management. During training, agents process sequential information chunks, learn to extract and store relevant content, then update the memory system. The reward signal derives from downstream question-answering accuracy over the full interaction history, directly optimizing for memory construction. To illustrate the effectiveness of our training framework, we design a memory architecture comprising core, episodic, and semantic components, equipped with multiple tools for memory operations. Empirical evaluation demonstrates that Mem-alpha achieves significant improvements over existing memory-augmented agent baselines. Despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit remarkable generalization to sequences exceeding 400k tokens, over 13x the training length, highlighting the robustness of Mem-alpha.
PDF141October 1, 2025