SimpleMem: Эффективная долговременная память для агентов на основе больших языковых моделей

Аннотация

Для обеспечения надежного долгосрочного взаимодействия в сложных средах агентам на основе больших языковых моделей (LLM) необходимы системы памяти, эффективно управляющие историческим опытом. Существующие подходы либо сохраняют полные истории взаимодействий через пассивное расширение контекста, что приводит к значительной избыточности, либо полагаются на итеративные рассуждения для фильтрации шума, что влечет высокие затраты токенов. Для решения этой проблемы мы представляем SimpleMem — эффективную архитектуру памяти, основанную на семантическом сжатии без потерь. Мы предлагаем трехэтапный конвейер, разработанный для максимизации информационной плотности и утилизации токенов: (1) Семантическое структурированное сжатие, применяющее энтропийную фильтрацию для дистилляции неструктурированных взаимодействий в компактные индексированные блоки памяти с многомерным представлением; (2) Рекурсивная консолидация памяти — асинхронный процесс интеграции связанных блоков в абстрактные представления более высокого уровня для снижения избыточности; и (3) Адаптивный поиск с учетом запроса, динамически регулирующий область поиска на основе сложности запроса для эффективного построения точного контекста. Эксперименты на эталонных наборах данных показывают, что наш метод стабильно превосходит базовые подходы по точности, эффективности поиска и стоимости вывода, демонстрируя среднее улучшение F1 на 26.4% при одновременном сокращении потребления токенов во время вывода до 30 раз, что свидетельствует о превосходном балансе между производительностью и эффективностью. Код доступен по адресу https://github.com/aiming-lab/SimpleMem.

English

To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.

SimpleMem: Эффективная долговременная память для агентов на основе больших языковых моделей

SimpleMem: Efficient Lifelong Memory for LLM Agents

Аннотация

Support