SimpleMem: LLM 에이전트를 위한 효율적인 평생 메모리
SimpleMem: Efficient Lifelong Memory for LLM Agents
January 5, 2026
저자: Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
초록
복잡한 환경에서 신뢰할 수 있는 장기 상호작용을 지원하기 위해 LLM 에이전트는 역사적 경험을 효율적으로 관리하는 메모리 시스템이 필요합니다. 기존 접근법은 수동적 컨텍스트 확장을 통해 전체 상호작용 기록을 보관하여 상당한 중복을 초개하거나, 반복적 추론에 의존해 노이즈를 필터링하여 높은 토큰 비용이 발생하는 한계가 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 의미적 무손실 압축에 기반한 효율적인 메모리 프레임워크인 SimpleMem을 제안합니다. 정보 밀도와 토큰 활용도를 극대화하도록 설계된 3단계 파이프라인을 제시합니다: (1) 엔트로피 인식 필터링을 적용하여 비정형 상호작용을 컴팩트한 다중 뷰 인덱싱 메모리 단위로 정제하는 의미적 구조화 압축, (2) 관련 단위를 상위 수준의 추상적 표현으로 통합하여 중복성을 줄이는 비동기적 재귀적 메모리 통합, (3) 질의 복잡도에 기반하여 검색 범위를 동적으로 조정하여 정확한 컨텍스트를 효율적으로 구성하는 적응형 질의 인식 검색. 벤치마크 데이터셋 실험 결과, 본 방법은 정확도, 검색 효율성, 추론 비용 측면에서 기준 방법들을 지속적으로 능가하며 평균 F1 점수 26.4% 향상과 추론 시 토큰 사용량 최대 30배 감소를 달성하여 성능과 효율성 간의 우수한 균형을 입증했습니다. 코드는 https://github.com/aiming-lab/SimpleMem에서 이용 가능합니다.
English
To support reliable long-term interaction in complex environments, LLM agents require memory systems that efficiently manage historical experiences. Existing approaches either retain full interaction histories via passive context extension, leading to substantial redundancy, or rely on iterative reasoning to filter noise, incurring high token costs. To address this challenge, we introduce SimpleMem, an efficient memory framework based on semantic lossless compression. We propose a three-stage pipeline designed to maximize information density and token utilization: (1) Semantic Structured Compression, which applies entropy-aware filtering to distill unstructured interactions into compact, multi-view indexed memory units; (2) Recursive Memory Consolidation, an asynchronous process that integrates related units into higher-level abstract representations to reduce redundancy; and (3) Adaptive Query-Aware Retrieval, which dynamically adjusts retrieval scope based on query complexity to construct precise context efficiently. Experiments on benchmark datasets show that our method consistently outperforms baseline approaches in accuracy, retrieval efficiency, and inference cost, achieving an average F1 improvement of 26.4% while reducing inference-time token consumption by up to 30-fold, demonstrating a superior balance between performance and efficiency. Code is available at https://github.com/aiming-lab/SimpleMem.