Mem-α: 강화 학습을 통한 메모리 구성 학습
Mem-α: Learning Memory Construction via Reinforcement Learning
September 30, 2025
저자: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu
cs.AI
초록
대규모 언어 모델(LLM) 에이전트는 제한된 컨텍스트 윈도우로 인해 장기적인 정보 이해를 위해 외부 메모리 시스템이 필요합니다. 현재 메모리 강화 에이전트는 일반적으로 미리 정의된 지침과 도구에 의존하여 메모리를 업데이트합니다. 그러나 언어 모델은 어떤 정보를 저장할지, 어떻게 구조화할지, 언제 업데이트할지 결정하는 능력이 부족할 수 있으며, 특히 메모리 시스템이 복잡해질수록 이러한 문제가 더욱 두드러집니다. 이로 인해 최적이 아닌 메모리 구성과 정보 손실이 발생합니다. 이를 해결하기 위해 우리는 상호작용과 피드백을 통해 복잡한 메모리 시스템을 효과적으로 관리하도록 에이전트를 훈련시키는 강화 학습 프레임워크인 Mem-alpha를 제안합니다. 또한, 효과적인 메모리 관리를 가르치기 위해 다양한 다중 턴 상호작용 패턴과 포괄적인 평가 질문으로 구성된 특수화된 훈련 데이터셋을 구축했습니다. 훈련 중에 에이전트는 순차적인 정보 청크를 처리하고, 관련 콘텐츠를 추출 및 저장한 후 메모리 시스템을 업데이트하는 방법을 학습합니다. 보상 신호는 전체 상호작용 이력에 대한 하류 질문-응답 정확도에서 도출되며, 이는 메모리 구성을 직접 최적화합니다. 우리의 훈련 프레임워크의 효과를 입증하기 위해, 코어, 에피소드, 의미론적 구성 요소로 이루어진 메모리 아키텍처를 설계하고, 메모리 작업을 위한 여러 도구를 갖추었습니다. 실험적 평가 결과, Mem-alpha는 기존의 메모리 강화 에이전트 기준선에 비해 상당한 개선을 달성했습니다. 최대 30k 토큰 길이의 인스턴스로만 훈련되었음에도 불구하고, 우리의 에이전트는 훈련 길이의 13배가 넘는 400k 토큰 이상의 시퀀스에서도 놀라운 일반화 능력을 보여주며, Mem-alpha의 견고성을 입증했습니다.
English
Large language model (LLM) agents are constrained by limited context windows,
necessitating external memory systems for long-term information understanding.
Current memory-augmented agents typically depend on pre-defined instructions
and tools for memory updates. However, language models may lack the ability to
determine which information to store, how to structure it, and when to update
it, especially as memory systems become more complex. This results in
suboptimal memory construction and information loss. To this end, we propose
Mem-alpha, a reinforcement learning framework that trains agents to effectively
manage complex memory systems through interaction and feedback. We also
construct a specialized training dataset spanning diverse multi-turn
interaction patterns paired with comprehensive evaluation questions designed to
teach effective memory management. During training, agents process sequential
information chunks, learn to extract and store relevant content, then update
the memory system. The reward signal derives from downstream question-answering
accuracy over the full interaction history, directly optimizing for memory
construction. To illustrate the effectiveness of our training framework, we
design a memory architecture comprising core, episodic, and semantic
components, equipped with multiple tools for memory operations. Empirical
evaluation demonstrates that Mem-alpha achieves significant improvements over
existing memory-augmented agent baselines. Despite being trained exclusively on
instances with a maximum length of 30k tokens, our agents exhibit remarkable
generalization to sequences exceeding 400k tokens, over 13x the training
length, highlighting the robustness of Mem-alpha.