Anatomia da Memória Agente: Taxonomia e Análise Empírica de Avaliação e Limitações do Sistema

Resumo

Os sistemas de memória agentiva permitem que agentes de modelos de linguagem de grande escala (LLM) mantenham estado ao longo de interações longas, suportando raciocínio de longo horizonte e personalização para além de janelas de contexto fixas. Apesar do rápido desenvolvimento arquitetônico, os fundamentos empíricos destes sistemas permanecem frágeis: os benchmarks existentes são frequentemente de escala insuficiente, as métricas de avaliação estão desalinhadas com a utilidade semântica, o desempenho varia significativamente entre os modelos de base (backbone) e os custos a nível de sistema são frequentemente negligenciados. Este estudo apresenta uma análise estruturada da memória agentiva tanto sob perspetivas arquitetónicas como de sistema. Primeiro, introduzimos uma taxonomia concisa dos sistemas MAG baseada em quatro estruturas de memória. Em seguida, analisamos os principais pontos problemáticos que limitam os sistemas atuais, incluindo efeitos de saturação nos benchmarks, validade das métricas e sensibilidade dos juízos, precisão dependente do modelo de base, e a sobrecarga de latência e de débito (throughput) introduzida pela manutenção da memória. Ao conectar a estrutura de memória às limitações empíricas, este estudo esclarece por que razão os sistemas de memória agentiva atuais frequentemente ficam aquém da sua promessa teórica e delineia direções para uma avaliação mais fiável e um design de sistema mais escalável.

English

Agentic memory systems enable large language model (LLM) agents to maintain state across long interactions, supporting long-horizon reasoning and personalization beyond fixed context windows. Despite rapid architectural development, the empirical foundations of these systems remain fragile: existing benchmarks are often underscaled, evaluation metrics are misaligned with semantic utility, performance varies significantly across backbone models, and system-level costs are frequently overlooked. This survey presents a structured analysis of agentic memory from both architectural and system perspectives. We first introduce a concise taxonomy of MAG systems based on four memory structures. Then, we analyze key pain points limiting current systems, including benchmark saturation effects, metric validity and judge sensitivity, backbone-dependent accuracy, and the latency and throughput overhead introduced by memory maintenance. By connecting the memory structure to empirical limitations, this survey clarifies why current agentic memory systems often underperform their theoretical promise and outlines directions for more reliable evaluation and scalable system design.