MemoryRewardBench: 대규모 언어 모델의 장기 메모리 관리를 위한 보상 모델 벤치마킹
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
January 17, 2026
저자: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI
초록
기존 연구들은 긴 문맥을 세그먼트 방식으로 처리하기 위해 메모리 중심 메커니즘을 점점 더 많이 채택하고 있으며, 효과적인 메모리 관리란 대규모 언어 모델이 전체 시퀀스에 걸쳐 정보를 효과적으로 전파할 수 있게 하는 핵심 능력 중 하나입니다. 따라서 메모리 품질을 자동적이고 신뢰롭게 평가하기 위해 보상 모델(RM)을 활용하는 것이 중요합니다. 본 연구에서는 RM의 장기 기억 관리 과정 평가 능력을 체계적으로 연구하기 위한 최초의 벤치마크인 MemoryRewardBench를 소개합니다. MemoryRewardBench는 장문 맥락 이해 및 장문 생성 과제를 모두 아우르며, 서로 다른 메모리 관리 패턴을 가진 10가지 상이한 설정과 8K에서 128K 토큰에 이르는 문맥 길이를 특징으로 합니다. 13개의 최첨단 RM에 대한 평가 결과, 오픈소스 모델과 독점 모델 간의 성능 격차가 좁아지고 있으며, 매개변수 수와 관계없이 신세대 모델들이 이전 모델들을 꾸준히 능가하는 것으로 나타났습니다. 우리는 더 나아가 다양한 설정에 걸친 LLM 메모리 관리 평가에서 현재 RM들의 능력과 근본적인 한계를 드러냅니다.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.