ChatPaper.aiChatPaper

MemoryRewardBench:大規模言語モデルにおける長期記憶管理のための報酬モデルベンチマーク

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

January 17, 2026
著者: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI

要旨

既存研究では、長文コンテキストをセグメント単位で処理するメモリ中心のメカニズムが広く採用されるようになっており、効果的なメモリ管理は大規模言語モデルがシーケンス全体にわたって情報を効果的に伝播させるための重要な能力の一つです。したがって、報酬モデル(RM)を活用してメモリ品質を自動的かつ信頼性高く評価することが極めて重要です。本研究では、RMが長期メモリ管理プロセスを評価する能力を体系的に研究する初のベンチマークであるMemoryRewardBenchを提案します。MemoryRewardBenchは長文理解タスクと長文生成タスクの両方を網羅し、異なるメモリ管理パターンを持つ10の設定を特徴とし、コンテキスト長は8Kトークンから128Kトークンまで多岐にわたります。13の最先端RMによる評価結果から、オープンソースモデルとプロプライエタリモデルの性能差が縮小していること、パラメータ数に関わらず新世代モデルが一貫して前世代モデルを上回ることが明らかになりました。さらに、様々な設定におけるLLMメモリ管理評価に関して、現在のRMが持つ能力と根本的限界を浮き彫りにします。
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.
PDF241January 22, 2026