Anatomie des agentischen Gedächtnisses: Taxonomie und empirische Analyse von Evaluierung und Systemgrenzen
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
February 22, 2026
papers.authors: Dongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li
cs.AI
papers.abstract
Agentische Gedächtnissysteme ermöglichen es Agenten auf Basis großer Sprachmodelle (LLM), Zustände über lange Interaktionen hinweg beizubehalten. Sie unterstützen langfristiges Schlussfolgern und Personalisierung über feste Kontextfenster hinaus. Trotz rasanter architektonischer Entwicklungen bleiben die empirischen Grundlagen dieser Systeme fragil: Bestehende Benchmarks sind oft nicht umfassend genug, Evaluationsmetriken sind nicht auf den semantischen Nutzen abgestimmt, die Leistung variiert erheblich zwischen zugrundeliegenden Basismodellen, und systemweite Kosten werden häufig übersehen. Dieser Übersichtsartikel bietet eine strukturierte Analyse agentischer Gedächtnissysteme aus architektonischer und systemtechnischer Perspektive. Zunächst führen wir eine prägnante Taxonomie von MAG-Systemen basierend auf vier Gedächtnisstrukturen ein. Anschließend analysieren wir zentrale Schwachstellen, die aktuelle Systeme limitieren, darunter Sättigungseffekte in Benchmarks, die Validität von Metriken und die Sensitivität von Bewertungsinstanzen, die abhängige Genauigkeit vom Basismodell sowie die durch Gedächtnispflege verursachten Latenz- und Durchsatzoverheads. Indem dieser Beitrag die Gedächtnisstruktur mit empirischen Limitationen verbindet, klärt er auf, warum aktuelle agentische Gedächtnissysteme oft ihr theoretisches Potenzial nicht erfüllen, und skizziert Richtungen für eine zuverlässigere Evaluation und skalierbare Systemgestaltung.
English
Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.