Анатомия агентной памяти: таксономия и эмпирический анализ оценки и ограничений систем
Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations
February 22, 2026
Авторы: Dongming Jiang, Yi Li, Songtao Wei, Jinxin Yang, Ayushi Kishore, Alysa Zhao, Dingyi Kang, Xu Hu, Feng Chen, Qiannan Li, Bingzhe Li
cs.AI
Аннотация
Системы агентной памяти позволяют агентам на основе больших языковых моделей (LLM) сохранять состояние в ходе длительных взаимодействий, обеспечивая долгосрочное рассуждение и персонализацию, выходящие за рамки фиксированных контекстных окон. Несмотря на быстрое развитие архитектур, эмпирические основы этих систем остаются хрупкими: существующие бенчмарки часто недостаточно масштабированы, метрики оценки не согласованы с семантической полезностью, производительность значительно варьируется в зависимости от базовой модели, а системные затраты часто упускаются из виду. В данном обзоре представлен структурированный анализ агентной памяти как с архитектурной, так и с системной точек зрения. Сначала мы вводим краткую таксономию систем MAG, основанную на четырех структурах памяти. Затем мы анализируем ключевые проблемные точки, ограничивающие современные системы, включая эффекты насыщения бенчмарков, валидность метрик и чувствительность оценщиков, зависимость точности от базовой модели, а также задержку и снижение пропускной способности, вносимые обслуживанием памяти. Связывая структуру памяти с эмпирическими ограничениями, этот обзор поясняет, почему современные системы агентной памяти часто не оправдывают теоретических ожиданий, и намечает направления для более надежной оценки и масштабируемого системного проектирования.
English
Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.