Avaliação da Memória em Agentes de LLM por meio de Interações Multi-turn Incrementais
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
Autores: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
Resumo
Os benchmarks recentes para agentes de Modelos de Linguagem de Grande Escala (LLM) concentram-se principalmente na avaliação de capacidades de raciocínio, planejamento e execução, enquanto outro componente crítico — a memória, que abrange como os agentes memorizam, atualizam e recuperam informações de longo prazo — é subavaliado devido à falta de benchmarks. Denominamos agentes com mecanismos de memória como agentes de memória. Neste artigo, identificamos quatro competências essenciais para agentes de memória: recuperação precisa, aprendizado em tempo de teste, compreensão de longo alcance e resolução de conflitos. Os conjuntos de dados existentes ou dependem de comprimentos de contexto limitados ou são adaptados para configurações estáticas de contexto longo, como perguntas e respostas baseadas em livros, que não refletem a natureza interativa e de múltiplos turnos dos agentes de memória que acumulam informações de forma incremental. Além disso, nenhum benchmark existente cobre todas as quatro competências. Portanto, introduzimos o MemoryAgentBench, um novo benchmark especificamente projetado para agentes de memória. Nosso benchmark combina conjuntos de dados existentes reformulados com novos, cobrindo as quatro competências de memória mencionadas, proporcionando um ambiente de teste sistemático e desafiador para avaliar a qualidade da memória. Avaliamos um conjunto diversificado de agentes de memória, desde sistemas simples baseados em contexto e geração aumentada por recuperação (RAG) até agentes avançados com módulos de memória externa e integração de ferramentas. Os resultados empíricos revelam que os métodos atuais não dominam todas as quatro competências, destacando a necessidade de mais pesquisas sobre mecanismos de memória abrangentes para agentes LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.