SimpleMem: Effizienter lebenslanger Speicher für LLM-Agenten
SimpleMem: Efficient Lifelong Memory for LLM Agents
January 5, 2026
Autoren: Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
Zusammenfassung
Um zuverlässige Langzeitinteraktionen in komplexen Umgebungen zu ermöglichen, benötigen LLM-Agenten Gedächtnissysteme, die historische Erfahrungen effizient verwalten. Bestehende Ansätze behalten entweder vollständige Interaktionsverläufe durch passive Kontexterweiterung bei, was zu erheblicher Redundanz führt, oder stützen sich auf iteratives Reasoning zur Rauschfilterung, was hohe Token-Kosten verursacht. Um diese Herausforderung zu bewältigen, stellen wir SimpleMem vor, einen effizienten Gedächtnisrahmen basierend auf semantischer verlustfreier Kompression. Wir schlagen eine dreistufige Pipeline vor, die die Informationsdichte und Token-Auslastung maximiert: (1) Semantisch strukturierte Kompression, die entropiebewusste Filterung anwendet, um unstrukturierte Interaktionen in kompakte, multiview-indizierte Gedächtniseinheiten zu destillieren; (2) Rekursive Gedächtniskonsolidierung, ein asynchroner Prozess, der verwandte Einheiten zu höheren abstrakten Repräsentationen integriert, um Redundanz zu reduzieren; und (3) Adaptive abfragebewusste Retrieval, die den Retrieval-Umfang dynamisch an die Abfragekomplexität anpasst, um präzisen Kontext effizient zu konstruieren. Experimente auf Benchmark-Datensätzen zeigen, dass unsere Methode Baseline-Ansätze durchgängig in Genauigkeit, Retrieval-Effizienz und Inferenzkosten übertrifft, mit einer durchschnittlichen F1-Verbesserung von 26,4 % bei gleichzeitiger Reduzierung des Token-Verbrauchs zur Inferenzzeit um bis zum 30-Fachen, was eine überlegene Balance zwischen Leistung und Effizienz demonstriert. Code ist verfügbar unter https://github.com/aiming-lab/SimpleMem.
English
To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.