MemoryRewardBench: Бенчмарк моделей вознаграждения для управления долговременной памятью в больших языковых моделях
MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
January 17, 2026
Авторы: Zecheng Tang, Baibei Ji, Ruoxi Sun, Haitian Wang, WangJie You, Zhang Yijun, Wenpeng Zhu, Ji Qi, Juntao Li, Min Zhang
cs.AI
Аннотация
Современные исследования все чаще используют механизмы с фокусом на управлении памятью для обработки длинных контекстов сегментным способом, при этом эффективное управление памятью является ключевой способностью, позволяющей большим языковым моделям успешно распространять информацию по всей последовательности. В связи с этим критически важной задачей становится использование ревард-моделей (RM) для автоматической и надежной оценки качества работы с памятью. В данной работе мы представляем MemoryRewardBench — первый бенчмарк для систематического изучения способности RM оценивать процессы управления долговременной памятью. MemoryRewardBench охватывает как задачи понимания длинных контекстов, так и задачи длинного генеративного формата, включая 10 различных сценариев с разными паттернами управления памятью и длиной контекста от 8K до 128K токенов. Оценка 13 передовых RM показывает сокращающийся разрыв в производительности между открытыми и проприетарными моделями, при этом модели нового поколения стабильно превосходят своих предшественников независимо от количества параметров. Мы также выявляем возможности и фундаментальные ограничения современных RM при оценке управления памятью в LLM в разнообразных условиях.
English
Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.