Готовы ли мы к агентно-нативной системе памяти?

Аннотация

Память для агентов на основе больших языковых моделей (LLM) быстро эволюционировала от простых механизмов дополнения извлечением (retrieval-augmented) к системе управления данными, поддерживающей постоянное хранение, извлечение, обновление, консолидацию и динамическое управление жизненным циклом информации на протяжении выполнения агентом своих задач. Несмотря на эту эволюцию, существующие оценки по-прежнему оценивают память агентов в основном с помощью сквозных метрик успешности выполнения задач (например, F1, BLEU), рассматривая при этом лежащую в основе систему как монолитный черный ящик. В результате критические аспекты на системном уровне, включая эксплуатационные затраты, архитектурные компромиссы между модулями памяти и устойчивость к динамическим обновлениям знаний, остаются недостаточно изученными. В данной статье мы представляем систематическое экспериментальное исследование памяти агентов с точки зрения управления данными. Мы предлагаем аналитическую структуру, которая разлагает память агента на четыре основных модуля: представление и хранение памяти, извлечение, поиск и маршрутизация, а также обслуживание. В рамках этой структуры мы оцениваем 12 репрезентативных систем памяти и два эталонных базовых решения на пяти эталонных наборах рабочих нагрузок, охватывающих 11 наборов данных. Наш обширный сквозной анализ показывает, что ни одна отдельная архитектура не является доминирующей во всех сценариях; напротив, эффективность сильно зависит от того, насколько структура памяти согласуется с узким местом рабочей нагрузки. Кроме того, благодаря тонко настроенным абляционным исследованиям мы количественно оцениваем их отдельные эффекты на верность представления, точность поиска, корректность обновления и долгосрочную устойчивость. Наконец, мы выявляем компромиссы между стоимостью и производительностью в реалистичных условиях, показывая, что локализованное обслуживание более экономически эффективно, чем глобальная реорганизация. Основываясь на этих результатах, мы определяем многообещающие направления для создания по-настоящему нативных систем памяти для агентов. Код доступен по адресу https://github.com/OpenDataBox/MemoryData.

English

Memory for large language model (LLM) agents has rapidly evolved from simple retrieval-augmented mechanisms into a data management system that supports persistent information storage, retrieval, update, consolidation, and dynamic lifecycle governance throughout agent execution. Despite this evolution, existing evaluations still benchmark agent memory mainly through end-to-end task success metrics (e.g., F1, BLEU), while treating the underlying system as a monolithic black box. As a result, critical system-level concerns, including operational costs, architectural trade-offs across memory modules, and robustness under dynamic knowledge updates, remain insufficiently explored. In this paper, we present a systematic experimental study of agent memory from a data management perspective. We propose an analytical framework that decomposes agent memory into four core modules: memory representation and storage, extraction, retrieval and routing, and maintenance. Under this framework, we evaluate 12 representative memory systems and two reference baselines across five benchmark workloads spanning 11 datasets. Our extensive end-to-end evaluation shows that no single architecture dominates across all scenarios; instead, effectiveness depends heavily on how well the memory structure aligns with the workload bottleneck. Furthermore, through fine-grained ablation studies, we quantify their individual effects on representation fidelity, retrieval precision, update correctness, and long-horizon stability. Finally, we reveal cost-performance trade-offs under realistic workloads, showing localized maintenance is more cost-efficient than global reorganization. Based on these findings, we identify promising directions towards building truly agent-native memory systems. The code is publicly available at https://github.com/OpenDataBox/MemoryData.