Evaluatie van geheugen in LLM-agenten via incrementele multi-turn interacties
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
Auteurs: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
Samenvatting
Recente benchmarks voor Large Language Model (LLM)-agenten richten zich voornamelijk op het evalueren van redeneer-, plannings- en uitvoeringscapaciteiten, terwijl een ander cruciaal onderdeel—geheugen, dat omvat hoe agenten informatie onthouden, bijwerken en langetermijninformatie ophalen—ondergewaardeerd blijft vanwege het gebrek aan benchmarks. We noemen agenten met geheugenmechanismen geheugenagenten. In dit artikel identificeren we vier kerncompetenties die essentieel zijn voor geheugenagenten: nauwkeurige ophaling, leren tijdens testen, begrip op lange termijn en conflictoplossing. Bestaande datasets zijn ofwel gebaseerd op beperkte contextlengtes of zijn toegesneden op statische, langetermijncontexten zoals vraag-antwoordsystemen op basis van boeken, wat niet overeenkomt met de interactieve, meerdere-turn aard van geheugenagenten die informatie geleidelijk accumuleren. Bovendien dekt geen enkele bestaande benchmark alle vier de competenties. Daarom introduceren we MemoryAgentBench, een nieuwe benchmark die specifiek is ontworpen voor geheugenagenten. Onze benchmark combineert hervormde bestaande datasets met nieuw geconstrueerde datasets, die de bovenstaande vier geheugencompetenties bestrijken, en biedt zo een systematische en uitdagende testomgeving voor het beoordelen van geheugenkwaliteit. We evalueren een diverse set van geheugenagenten, variërend van eenvoudige contextgebaseerde en retrieval-augmented generation (RAG)-systemen tot geavanceerde agenten met externe geheugenmodules en toolintegratie. Empirische resultaten tonen aan dat huidige methoden tekortschieten in het beheersen van alle vier de competenties, wat de noodzaak onderstreept van verder onderzoek naar uitgebreide geheugenmechanismen voor LLM-agenten.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.