SimpleMem: Memória Eficiente ao Longo da Vida para Agentes de LLM

Resumo

Para suportar interações de longo prazo confiáveis em ambientes complexos, os agentes de LLM requerem sistemas de memória que gerenciem eficientemente as experiências históricas. As abordagens existentes ou retêm históricos completos de interação via extensão passiva de contexto, levando a uma redundância substancial, ou dependem de raciocínio iterativo para filtrar ruído, incorrendo em altos custos de *tokens*. Para enfrentar este desafio, introduzimos o SimpleMem, um framework de memória eficiente baseado na compressão semântica sem perdas. Propomos um *pipeline* de três estágios projetado para maximizar a densidade de informação e a utilização de *tokens*: (1) Compressão Estruturada Semântica, que aplica filtragem consciente da entropia para destilar interações não estruturadas em unidades de memória indexadas compactas e de múltiplas visões; (2) Consolidação de Memória Recursiva, um processo assíncrono que integra unidades relacionadas em representações abstratas de nível superior para reduzir a redundância; e (3) Recuperação Adaptativa Consciente da Consulta, que ajusta dinamicamente o escopo de recuperação com base na complexidade da consulta para construir contexto preciso de forma eficiente. Experimentos em conjuntos de dados de referência mostram que nosso método supera consistentemente as abordagens basais em precisão, eficiência de recuperação e custo de inferência, alcançando uma melhoria média de F1 de 26,4% enquanto reduz o consumo de *tokens* no tempo de inferência em até 30 vezes, demonstrando um equilíbrio superior entre desempenho e eficiência. O código está disponível em https://github.com/aiming-lab/SimpleMem.

English

To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.

SimpleMem: Memória Eficiente ao Longo da Vida para Agentes de LLM

SimpleMem: Efficient Lifelong Memory for LLM Agents

Resumo

Support