ChatPaper.aiChatPaper

MemoryRewardBench : Évaluation comparative des modèles de récompense pour la gestion de la mémoire à long terme dans les grands modèles de langage

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

January 17, 2026
papers.authors: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI

papers.abstract

Les travaux existants adoptent de plus en plus des mécanismes centrés sur la mémoire pour traiter les longs contextes de manière segmentée, et une gestion efficace de la mémoire est l'une des capacités clés permettant aux grands modèles de langage de propager efficacement l'information sur l'ensemble de la séquence. Par conséquent, l'utilisation de modèles de récompense (RM) pour évaluer automatiquement et de manière fiable la qualité de la mémoire est cruciale. Dans ce travail, nous présentons MemoryRewardBench, le premier benchmark visant à étudier systématiquement la capacité des RM à évaluer les processus de gestion de la mémoire à long terme. MemoryRewardBench couvre à la fois les tâches de compréhension de contexte long et de génération longue, avec 10 configurations distinctes présentant différents schémas de gestion de la mémoire, et des longueurs de contexte allant de 8 000 à 128 000 tokens. Les évaluations de 13 RM de pointe indiquent un rétrécissement de l'écart de performance entre les modèles open-source et propriétaires, les modèles de nouvelle génération surpassant systématiquement leurs prédécesseurs, quel que soit leur nombre de paramètres. Nous mettons également en lumière les capacités et les limitations fondamentales des RM actuels dans l'évaluation de la gestion de la mémoire des LLM à travers diverses configurations.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.
PDF241January 22, 2026