Evaluatie van geheugen in LLM-agenten via incrementele multi-turn interacties

Samenvatting

Recente benchmarks voor Large Language Model (LLM)-agenten richten zich voornamelijk op het evalueren van redeneer-, plannings- en uitvoeringscapaciteiten, terwijl een ander cruciaal onderdeel—geheugen, dat omvat hoe agenten informatie onthouden, bijwerken en langetermijninformatie ophalen—ondergewaardeerd blijft vanwege het gebrek aan benchmarks. We noemen agenten met geheugenmechanismen geheugenagenten. In dit artikel identificeren we vier kerncompetenties die essentieel zijn voor geheugenagenten: nauwkeurige ophaling, leren tijdens testen, begrip op lange termijn en conflictoplossing. Bestaande datasets zijn ofwel gebaseerd op beperkte contextlengtes of zijn toegesneden op statische, langetermijncontexten zoals vraag-antwoordsystemen op basis van boeken, wat niet overeenkomt met de interactieve, meerdere-turn aard van geheugenagenten die informatie geleidelijk accumuleren. Bovendien dekt geen enkele bestaande benchmark alle vier de competenties. Daarom introduceren we MemoryAgentBench, een nieuwe benchmark die specifiek is ontworpen voor geheugenagenten. Onze benchmark combineert hervormde bestaande datasets met nieuw geconstrueerde datasets, die de bovenstaande vier geheugencompetenties bestrijken, en biedt zo een systematische en uitdagende testomgeving voor het beoordelen van geheugenkwaliteit. We evalueren een diverse set van geheugenagenten, variërend van eenvoudige contextgebaseerde en retrieval-augmented generation (RAG)-systemen tot geavanceerde agenten met externe geheugenmodules en toolintegratie. Empirische resultaten tonen aan dat huidige methoden tekortschieten in het beheersen van alle vier de competenties, wat de noodzaak onderstreept van verder onderzoek naar uitgebreide geheugenmechanismen voor LLM-agenten.

English

Recent benchmarks for Large Language Model (LLM) agents primarily focus on evaluating reasoning, planning, and execution capabilities, while another critical component-memory, encompassing how agents memorize, update, and retrieve long-term information-is under-evaluated due to the lack of benchmarks. We term agents with memory mechanisms as memory agents. In this paper, we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution. Existing datasets either rely on limited context lengths or are tailored for static, long-context settings like book-based QA, which do not reflect the interactive, multi-turn nature of memory agents that incrementally accumulate information. Furthermore, no existing benchmarks cover all four competencies. Therefore, we introduce MemoryAgentBench, a new benchmark specifically designed for memory agents. Our benchmark combines reformulated existing datasets with newly constructed ones, covering the above four memory competencies, providing a systematic and challenging testbed for assessing memory quality. We evaluate a diverse set of memory agents, ranging from simple context-based and retrieval-augmented generation (RAG) systems to advanced agents with external memory modules and tool integration. Empirical results reveal that current methods fall short of mastering all four competencies, underscoring the need for further research into comprehensive memory mechanisms for LLM agents.

Evaluatie van geheugen in LLM-agenten via incrementele multi-turn interacties

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Samenvatting

Support