ChatPaper.aiChatPaper

Mem-α: Construcción de Memoria mediante Aprendizaje por Refuerzo

Mem-α: Learning Memory Construction via Reinforcement Learning

September 30, 2025
Autores: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están limitados por ventanas de contexto reducidas, lo que hace necesario el uso de sistemas de memoria externa para la comprensión de información a largo plazo. Los agentes actuales potenciados con memoria suelen depender de instrucciones y herramientas predefinidas para actualizar la memoria. Sin embargo, los modelos de lenguaje pueden carecer de la capacidad para determinar qué información almacenar, cómo estructurarla y cuándo actualizarla, especialmente a medida que los sistemas de memoria se vuelven más complejos. Esto resulta en una construcción subóptima de la memoria y pérdida de información. Para abordar este problema, proponemos Mem-alpha, un marco de aprendizaje por refuerzo que entrena a los agentes para gestionar eficazmente sistemas de memoria complejos mediante interacción y retroalimentación. Además, construimos un conjunto de datos de entrenamiento especializado que abarca diversos patrones de interacción multiturno, acompañados de preguntas de evaluación exhaustivas diseñadas para enseñar una gestión eficaz de la memoria. Durante el entrenamiento, los agentes procesan fragmentos secuenciales de información, aprenden a extraer y almacenar contenido relevante, y luego actualizan el sistema de memoria. La señal de recompensa se deriva de la precisión en la respuesta a preguntas basadas en el historial completo de interacción, optimizando directamente la construcción de la memoria. Para ilustrar la efectividad de nuestro marco de entrenamiento, diseñamos una arquitectura de memoria que incluye componentes centrales, episódicos y semánticos, equipados con múltiples herramientas para operaciones de memoria. La evaluación empírica demuestra que Mem-alpha logra mejoras significativas en comparación con los agentes potenciados con memoria existentes. A pesar de haber sido entrenados exclusivamente en instancias con una longitud máxima de 30k tokens, nuestros agentes exhiben una notable generalización a secuencias que superan los 400k tokens, más de 13 veces la longitud de entrenamiento, lo que resalta la robustez de Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows, necessitating external memory systems for long-term information understanding. Current memory-augmented agents typically depend on pre-defined instructions and tools for memory updates. However, language models may lack the ability to determine which information to store, how to structure it, and when to update it, especially as memory systems become more complex. This results in suboptimal memory construction and information loss. To this end, we propose Mem-alpha, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. We also construct a specialized training dataset spanning diverse multi-turn interaction patterns paired with comprehensive evaluation questions designed to teach effective memory management. During training, agents process sequential information chunks, learn to extract and store relevant content, then update the memory system. The reward signal derives from downstream question-answering accuracy over the full interaction history, directly optimizing for memory construction. To illustrate the effectiveness of our training framework, we design a memory architecture comprising core, episodic, and semantic components, equipped with multiple tools for memory operations. Empirical evaluation demonstrates that Mem-alpha achieves significant improvements over existing memory-augmented agent baselines. Despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit remarkable generalization to sequences exceeding 400k tokens, over 13x the training length, highlighting the robustness of Mem-alpha.
PDF100October 1, 2025