Évaluation de la mémoire dans les agents LLM via des interactions multi-tours incrémentales
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
papers.authors: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
papers.abstract
Les benchmarks récents pour les agents de modèles de langage de grande taille (LLM) se concentrent principalement sur l'évaluation des capacités de raisonnement, de planification et d'exécution, tandis qu'un autre composant critique—la mémoire, englobant la manière dont les agents mémorisent, mettent à jour et récupèrent des informations à long terme—est sous-évalué en raison du manque de benchmarks. Nous qualifions les agents dotés de mécanismes de mémoire d'agents à mémoire. Dans cet article, nous identifions quatre compétences fondamentales essentielles pour les agents à mémoire : la récupération précise, l'apprentissage en temps de test, la compréhension à long terme et la résolution de conflits. Les ensembles de données existants reposent soit sur des longueurs de contexte limitées, soit sont adaptés à des configurations statiques à long contexte comme les questions-réponses basées sur des livres, ce qui ne reflète pas la nature interactive et multi-tours des agents à mémoire qui accumulent progressivement des informations. De plus, aucun benchmark existant ne couvre l'ensemble des quatre compétences. Par conséquent, nous introduisons MemoryAgentBench, un nouveau benchmark spécifiquement conçu pour les agents à mémoire. Notre benchmark combine des ensembles de données existants reformulés avec de nouveaux ensembles construits, couvrant les quatre compétences de mémoire mentionnées, offrant ainsi un banc d'essai systématique et exigeant pour évaluer la qualité de la mémoire. Nous évaluons une diversité d'agents à mémoire, allant des systèmes simples basés sur le contexte et de génération augmentée par récupération (RAG) aux agents avancés dotés de modules de mémoire externe et d'intégration d'outils. Les résultats empiriques révèlent que les méthodes actuelles ne maîtrisent pas l'ensemble des quatre compétences, soulignant la nécessité de poursuivre les recherches sur des mécanismes de mémoire complets pour les agents LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.