MemoryRewardBench: Benchmark voor Beloningsmodellen bij Geheugenbeheer op Lange Termijn in Grote Taalmodellen
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
January 17, 2026
Auteurs: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI
Samenvatting
Bestaande onderzoeken nemen in toenemende mate geheugencentrische mechanismen over om lange contexten segmentgewijs te verwerken, waarbij effectief geheugenbeheer een van de cruciale capaciteiten is die grote taalmodelen in staat stelt om informatie over de gehele sequentie te verspreiden. Het is daarom essentieel om beloningsmodellen (RMs) in te zetten om geheugenkwaliteit automatisch en betrouwbaar te evalueren. In dit werk introduceren we MemoryRewardBench, de eerste benchmark die systematisch het vermogen van RMs onderzoekt om langetermijngeheugenbeheerprocessen te beoordelen. MemoryRewardBench omvat zowel taken voor het begrip van lange contexten als voor langere tekstgeneratie, met 10 verschillende settings met uiteenlopende geheugenbeheerpatronen en contextlengtes variërend van 8K tot 128K tokens. Evaluaties van 13 state-of-the-art RMs tonen een krimpende prestatiekloof tussen open-source en propriëtaire modellen aan, waarbij nieuwere generaties modellen consistent beter presteren dan hun voorgangers, ongeacht het aantal parameters. We leggen verder de capaciteiten en fundamentele beperkingen van huidige RMs bloot bij het evalueren van LLM-geheugenbeheer in uiteenlopende settings.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.