ChatPaper.aiChatPaper

MemoryRewardBench: Evaluación Comparativa de Modelos de Recompensa para la Gestión de Memoria a Largo Plazo en Modelos de Lenguaje a Gran Escala

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

January 17, 2026
Autores: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI

Resumen

Las investigaciones existentes adoptan cada vez más mecanismos centrados en la memoria para procesar contextos largos de manera segmentada, siendo la gestión eficaz de la memoria una de las capacidades clave que permite a los modelos de lenguaje extenso propagar información a lo largo de toda la secuencia. Por tanto, es crucial utilizar modelos de recompensa (MR) para evaluar automáticamente y con fiabilidad la calidad de la memoria. En este trabajo presentamos MemoryRewardBench, el primer benchmark diseñado para estudiar sistemáticamente la capacidad de los MR para evaluar procesos de gestión de memoria a largo plazo. MemoryRewardBench abarca tanto tareas de comprensión de contextos extensos como de generación de contenido prolongado, incluyendo 10 escenarios distintos con diferentes patrones de gestión de memoria y longitudes de contexto que van desde 8.000 hasta 128.000 tokens. Las evaluaciones realizadas sobre 13 MR de vanguardia revelan una reducción en la brecha de rendimiento entre modelos de código abierto y propietarios, observándose que los modelos de nueva generación superan consistentemente a sus predecesores independientemente de su número de parámetros. Además, exponemos las capacidades y limitaciones fundamentales de los MR actuales para evaluar la gestión de memoria en modelos de lenguaje extenso bajo diversos escenarios.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.
PDF241January 22, 2026