Anatomia della Memoria Agente: Tassonomia e Analisi Empirica della Valutazione e delle Limitazioni del Sistema
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
February 22, 2026
Autori: Dongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li
cs.AI
Abstract
I sistemi di memoria agentica consentono agli agenti basati su grandi modelli linguistici (LLM) di mantenere uno stato attraverso interazioni prolungate, supportando ragionamenti a lungo termine e personalizzazione oltre i limiti di contesto fissi. Nonostante il rapido sviluppo architetturale, le fondamenta empiriche di questi sistemi rimangono fragili: i benchmark esistenti sono spesso inadeguati per scala, le metriche di valutazione sono disallineate con l'utilità semantica, le prestazioni variano significativamente tra i modelli di base, e i costi a livello di sistema sono frequentemente trascurati. Questa rassegna presenta un'analisi strutturata della memoria agentica da prospettive sia architetturali che sistemiche. Introduciamo innanzitutto una tassonomia concisa dei sistemi MAG basata su quattro strutture di memoria. Successivamente, analizziamo i principali punti critici che limitano i sistemi attuali, inclusi gli effetti di saturazione dei benchmark, la validità delle metriche e la sensibilità del giudizio, l'accuratezza dipendente dal modello di base, e i sovraccarichi di latenza e throughput introdotti dalla manutenzione della memoria. Collegando la struttura della memoria alle limitazioni empiriche, questa rassegna chiarisce perché gli attuali sistemi di memoria agentica spesso non rispettano le promesse teoriche e delinea le direzioni per una valutazione più affidabile e una progettazione di sistema più scalabile.
English
Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.