Anatomie van Agentiële Geheugensystemen: Taxonomie en Empirische Analyse van Evaluatiemethoden en Systeembeperkingen

Samenvatting

Agentische geheugensystemen stellen grote-taalmodelagenten (LLM-agenten) in staat om toestand te behouden over lange interacties heen, waardoor langetermijnredenering en personalisatie worden ondersteund die verder gaan dan vaste contextvensters. Ondanks snelle architectonische ontwikkelingen blijven de empirische fundamenten van deze systemen broos: bestaande benchmarks zijn vaak onvoldoende geschaald, evaluatiemetrics zijn niet afgestemd op semantische bruikbaarheid, prestaties variëren aanzienlijk tussen verschillende basismodellen, en systeemniveau-kosten worden vaak over het hoofd gezien. Dit overzichtsartikel presenteert een gestructureerde analyse van agentisch geheugen vanuit zowel architectonisch als systeemperspectief. We introduceren eerst een beknopte taxonomie van MAG-systemen op basis van vier geheugenstructuren. Vervolgens analyseren we belangrijke knelpunten die huidige systemen beperken, waaronder verzadigingseffecten in benchmarks, de geldigheid van metrics en de gevoeligheid van beoordelaars, nauwkeurigheid afhankelijk van het basismodel, en de latentie- en doorvoersnelheid-overhead veroorzaakt door geheugenonderhoud. Door de geheugenstructuur te verbinden met empirische beperkingen, verduidelijkt dit overzicht waarom huidige agentische geheugensystemen vaak onderpresteren ten opzichte van hun theoretische belofte en schetst het richtingen voor betrouwbaardere evaluatie en schaalbaarder systeemontwerp.

English

Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.

Anatomie van Agentiële Geheugensystemen: Taxonomie en Empirische Analyse van Evaluatiemethoden en Systeembeperkingen

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Samenvatting

Support