MemoryRewardBench: Benchmarking von Belohnungsmodellen für das Langzeitgedächtnismanagement in großen Sprachmodellen
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
January 17, 2026
papers.authors: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI
papers.abstract
Bestehende Arbeiten verwenden zunehmend speicherzentrierte Mechanismen, um lange Kontexte segmentweise zu verarbeiten. Ein effektives Speichermanagement ist eine der Schlüsselfähigkeiten, die es großen Sprachmodellen ermöglicht, Informationen über die gesamte Sequenz hinweg effektiv zu propagieren. Daher ist der Einsatz von Belohnungsmodellen (RMs) zur automatischen und zuverlässigen Bewertung der Speicherqualität von entscheidender Bedeutung. In dieser Arbeit stellen wir MemoryRewardBench vor, den ersten Benchmark, der systematisch die Fähigkeit von RMs untersucht, Prozesse des Langzeitspeichermanagements zu bewerten. MemoryRewardBench umfasst sowohl Aufgaben zum Verständnis langer Kontexte als auch zur Langformgenerierung und zeichnet sich durch 10 verschiedene Szenarien mit unterschiedlichen Speicherverwaltungsmustern bei Kontextlängen von 8.000 bis 128.000 Tokens aus. Evaluationen mit 13 modernsten RMs zeigen eine schwindende Leistungslücke zwischen Open-Source- und proprietären Modellen, wobei Modelle neuerer Generationen unabhängig von der Parameteranzahl konsequent ihre Vorgänger übertreffen. Wir beleuchten weiterhin die Fähigkeiten und grundlegenden Grenzen aktueller RMs bei der Bewertung des LLM-Speichermanagements in verschiedenen Szenarien.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.