MemoryRewardBench: Avaliação de Modelos de Recompensa para Gerenciamento de Memória de Longo Prazo em Modelos de Linguagem de Grande Escala

Resumo

Os trabalhos existentes adotam cada vez mais mecanismos centrados em memória para processar contextos longos de forma segmentada, sendo a gestão eficiente de memória uma das capacidades-chave que permite aos grandes modelos de linguagem propagar informações eficazmente ao longo de toda a sequência. Portanto, é crucial utilizar modelos de recompensa (RMs) para avaliar de forma automática e fiável a qualidade da memória. Neste trabalho, apresentamos o MemoryRewardBench, o primeiro benchmark concebido para estudar sistematicamente a capacidade dos RMs em avaliar processos de gestão de memória de longo prazo. O MemoryRewardBench abrange tanto tarefas de compreensão de contexto longo como de geração extensa, apresentando 10 configurações distintas com diferentes padrões de gestão de memória, com comprimentos de contexto variando entre 8 mil e 128 mil tokens. As avaliações realizadas em 13 RMs de última geração indicam uma redução da diferença de desempenho entre modelos de código aberto e proprietários, com os modelos de nova geração a superarem consistentemente os seus antecessores, independentemente do número de parâmetros. Expomos ainda as capacidades e limitações fundamentais dos RMs atuais na avaliação da gestão de memória de LLMs em diversas configurações.

English

Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.

MemoryRewardBench: Avaliação de Modelos de Recompensa para Gerenciamento de Memória de Longo Prazo em Modelos de Linguagem de Grande Escala

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

Resumo

Support