Mem-α: Обучение построению памяти с помощью обучения с подкреплением
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
Авторы: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) ограничены узкими окнами контекста, что требует использования внешних систем памяти для долгосрочного понимания информации. Современные агенты с расширенной памятью обычно полагаются на предопределенные инструкции и инструменты для обновления памяти. Однако языковые модели могут не обладать способностью определять, какую информацию сохранять, как её структурировать и когда обновлять, особенно по мере усложнения систем памяти. Это приводит к неоптимальному построению памяти и потере информации. Для решения этой проблемы мы предлагаем Mem-alpha — фреймворк обучения с подкреплением, который обучает агентов эффективно управлять сложными системами памяти через взаимодействие и обратную связь. Мы также создаем специализированный набор данных для обучения, охватывающий разнообразные многократные шаблоны взаимодействия, дополненные комплексными оценочными вопросами, предназначенными для обучения эффективному управлению памятью. В процессе обучения агенты обрабатывают последовательные фрагменты информации, учатся извлекать и сохранять релевантное содержимое, а затем обновляют систему памяти. Сигнал вознаграждения формируется на основе точности ответов на вопросы, охватывающих всю историю взаимодействия, что напрямую оптимизирует построение памяти. Чтобы продемонстрировать эффективность нашего фреймворка, мы разрабатываем архитектуру памяти, состоящую из ядра, эпизодического и семантического компонентов, оснащенных множеством инструментов для операций с памятью. Эмпирическая оценка показывает, что Mem-alpha достигает значительных улучшений по сравнению с существующими базовыми агентами с расширенной памятью. Несмотря на обучение исключительно на примерах с максимальной длиной 30 тысяч токенов, наши агенты демонстрируют замечательную способность к обобщению на последовательности, превышающие 400 тысяч токенов, что более чем в 13 раз превышает длину обучения, подчеркивая устойчивость Mem-alpha.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.