SimpleMem: Memoria eficiente de por vida para agentes de LLM

Resumen

Para garantizar interacciones confiables a largo plazo en entornos complejos, los agentes de LLM requieren sistemas de memoria que gestionen eficientemente las experiencias históricas. Los enfoques existentes o bien retienen historiales completos de interacción mediante extensión pasiva del contexto (generando redundancia sustancial), o dependen de razonamiento iterativo para filtrar ruido (incurriendo en altos costos de tokens). Para abordar este desafío, presentamos SimpleMem, un marco de memoria eficiente basado en compresión semántica sin pérdidas. Proponemos un pipeline de tres etapas diseñado para maximizar la densidad de información y utilización de tokens: (1) Compresión Estructurada Semántica, que aplica filtrado consciente de entropía para destilar interacciones no estructuradas en unidades de memoria indexadas compactas con múltiples vistas; (2) Consolidación Recursiva de Memoria, un proceso asíncrono que integra unidades relacionadas en representaciones abstractas de mayor nivel para reducir redundancia; y (3) Recuperación Adaptativa Consciente de Consultas, que ajusta dinámicamente el alcance de recuperación según la complejidad de la consulta para construir contexto preciso eficientemente. Experimentos en conjuntos de datos de referencia muestran que nuestro método supera consistentemente a enfoques baseline en precisión, eficiencia de recuperación y costo de inferencia, logrando una mejora promedio de F1 del 26.4% mientras reduce el consumo de tokens en tiempo de inferencia hasta 30 veces, demostrando un equilibrio superior entre rendimiento y eficiencia. El código está disponible en https://github.com/aiming-lab/SimpleMem.

English

To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.