SimpleMem: Memoria Efficiente per l'Apprendimento Continuo negli Agenti LLM

Abstract

Per supportare interazioni affidabili a lungo termine in ambienti complessi, gli agenti LLM richiedono sistemi di memoria che gestiscano efficientemente le esperienze storiche. Gli approcci esistenti conservano intere cronologie d’interazione tramite estensioni passive del contesto, generando notevole ridondanza, o si affidano a ragionamenti iterativi per filtrare il rumore, comportando elevati costi in token. Per affrontare questa sfida, introduciamo SimpleMem, un framework di memoria efficiente basato sulla compressione semantica senza perdita. Proponiamo una pipeline in tre fasi progettata per massimizzare la densità informativa e l’utilizzo dei token: (1) Compressione Strutturata Semantica, che applica un filtraggio basato sull’entropia per distillare interazioni non strutturate in unità di memoria compatte e indicizzate multi-prospettiva; (2) Consolidamento Ricorsivo della Memoria, un processo asincrono che integra unità correlate in rappresentazioni astratte di livello superiore per ridurre la ridondanza; e (3) Recupero Adattivo Sensibile alla Query, che modifica dinamicamente l’ambito di recupero in base alla complessità della query per costruire contesti precisi in modo efficiente. Esperimenti su dataset di benchmark mostrano che il nostro metodo supera costantemente gli approcci baseline in accuratezza, efficienza di recupero e costo d’inferenza, ottenendo un miglioramento medio dell’F1 del 26,4% e riducendo il consumo di token durante l’inferenza fino a 30 volte, dimostrando un bilanciamento superiore tra prestazioni ed efficienza. Il codice è disponibile all’indirizzo https://github.com/aiming-lab/SimpleMem.

English

To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.

SimpleMem: Memoria Efficiente per l'Apprendimento Continuo negli Agenti LLM

SimpleMem: Efficient Lifelong Memory for LLM Agents

Abstract

Support