MemoryRewardBench: Benchmarking dei Modelli di Ricompensa per la Gestione della Memoria a Lungo Termine nei Modelli Linguistici di Grandi Dimensioni
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
January 17, 2026
Autori: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI
Abstract
I lavori esistenti adottano sempre più meccanismi di tipo memory-centric per elaborare contesti lunghi in modo segmentato, e una gestione efficace della memoria è una delle capacità chiave che consente ai grandi modelli linguistici di propagare efficacemente le informazioni lungo l'intera sequenza. Pertanto, sfruttare modelli di reward (RM) per valutare in modo automatico e affidabile la qualità della memoria è fondamentale. In questo lavoro presentiamo MemoryRewardBench, il primo benchmark che studia sistematicamente la capacità degli RM di valutare i processi di gestione della memoria a lungo termine. MemoryRewardBench copre sia compiti di comprensione di contesti lunghi che di generazione long-form, caratterizzandosi per 10 impostazioni distinte con diversi modelli di gestione della memoria, con lunghezze del contesto che vanno dagli 8K ai 128K token. Le valutazioni su 13 RM all'avanguardia indicano un restringimento del divario prestazionale tra modelli open-source e proprietari, con i modelli di nuova generazione che superano costantemente i loro predecessori indipendentemente dal numero di parametri. Mettiamo inoltre in luce le capacità e le limitazioni fondamentali degli RM attuali nella valutazione della gestione della memoria degli LLM attraverso impostazioni diversificate.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.