Anatomía de la Memoria Agéntica: Taxonomía y Análisis Empírico de la Evaluación y Limitaciones del Sistema
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
February 22, 2026
Autores: Dongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li
cs.AI
Resumen
Los sistemas de memoria agentica permiten a los agentes de modelos de lenguaje grande (LLM) mantener el estado a lo largo de interacciones prolongadas, apoyando el razonamiento de largo alcance y la personalización más allá de las ventanas de contexto fijas. A pesar del rápido desarrollo arquitectónico, los fundamentos empíricos de estos sistemas siguen siendo frágiles: los puntos de referencia existentes a menudo están subdimensionados, las métricas de evaluación están desalineadas con la utilidad semántica, el rendimiento varía significativamente entre los modelos base, y los costos a nivel de sistema se pasan por alto con frecuencia. Esta revisión presenta un análisis estructurado de la memoria agentica desde perspectivas tanto arquitectónicas como de sistema. Primero introducimos una taxonomía concisa de los sistemas MAG basada en cuatro estructuras de memoria. Luego, analizamos los puntos críticos clave que limitan los sistemas actuales, incluyendo los efectos de saturación en los puntos de referencia, la validez de las métricas y la sensibilidad de los evaluadores, la precisión dependiente del modelo base, y la sobrecarga de latencia y rendimiento introducida por el mantenimiento de la memoria. Al conectar la estructura de la memoria con las limitaciones empíricas, esta revisión aclara por qué los sistemas de memoria agentica actuales a menudo no cumplen con su promesa teórica y esboza direcciones para una evaluación más confiable y un diseño de sistema escalable.
English
Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.