Zijn we klaar voor een agent-native geheugensysteem?

Samenvatting

Geheugen voor grote taalmodellen (LLM)-agenten is snel geëvolueerd van eenvoudige retrieval-augmentatiemechanismen naar een datamanagementsysteem dat persistente informatieopslag, -opvraging, -update, -consolidatie en dynamisch levenscyclusbeheer gedurende agentuitvoering ondersteunt. Ondanks deze evolutie benchmarken bestaande evaluaties agentgeheugen nog steeds voornamelijk via eind-tot-eind taaksuccesmetrics (bijv. F1, BLEU), terwijl het onderliggende systeem als een monolithische zwarte doos wordt behandeld. Als gevolg hiervan blijven kritische systeemniveau-overwegingen, waaronder operationele kosten, architecturale afwegingen tussen geheugenmodules en robuustheid onder dynamische kennisupdates, onvoldoende onderzocht. In dit artikel presenteren we een systematische experimentele studie van agentgeheugen vanuit een datamanagementperspectief. We stellen een analytisch kader voor dat agentgeheugen ontleedt in vier kernmodules: geheugenrepresentatie en -opslag, extractie, opvraging en routing, en onderhoud. Binnen dit kader evalueren we 12 representatieve geheugensystemen en twee referentiebaselines over vijf benchmarkwerklasten die 11 datasets bestrijken. Onze uitgebreide eind-tot-eind evaluatie toont aan dat geen enkele architectuur in alle scenario's domineert; in plaats daarvan hangt de effectiviteit sterk af van hoe goed de geheugenstructuur aansluit bij de werklastflessenhals. Verder kwantificeren we via fijnmazige ablatiestudies hun individuele effecten op representatiegetrouwheid, opvraagprecisie, updatecorrectheid en stabiliteit op lange termijn. Tot slot onthullen we kosten-prestatie afwegingen onder realistische werklasten, waaruit blijkt dat gelokaliseerd onderhoud kostenefficiënter is dan globale reorganisatie. Op basis van deze bevindingen identificeren we veelbelovende richtingen voor het bouwen van echt agent-native geheugensystemen. De code is openbaar beschikbaar op https://github.com/OpenDataBox/MemoryData.

English

Memory for large language model (LLM) agents has rapidly evolved from simple retrieval-augmented mechanisms into a data management system that supports persistent information storage, retrieval, update, consolidation, and dynamic lifecycle governance throughout agent execution. Despite this evolution, existing evaluations still benchmark agent memory mainly through end-to-end task success metrics (e.g., F1, BLEU), while treating the underlying system as a monolithic black box. As a result, critical system-level concerns, including operational costs, architectural trade-offs across memory modules, and robustness under dynamic knowledge updates, remain insufficiently explored. In this paper, we present a systematic experimental study of agent memory from a data management perspective. We propose an analytical framework that decomposes agent memory into four core modules: memory representation and storage, extraction, retrieval and routing, and maintenance. Under this framework, we evaluate 12 representative memory systems and two reference baselines across five benchmark workloads spanning 11 datasets. Our extensive end-to-end evaluation shows that no single architecture dominates across all scenarios; instead, effectiveness depends heavily on how well the memory structure aligns with the workload bottleneck. Furthermore, through fine-grained ablation studies, we quantify their individual effects on representation fidelity, retrieval precision, update correctness, and long-horizon stability. Finally, we reveal cost-performance trade-offs under realistic workloads, showing localized maintenance is more cost-efficient than global reorganization. Based on these findings, we identify promising directions towards building truly agent-native memory systems. The code is publicly available at https://github.com/OpenDataBox/MemoryData.