LightMem: 경량화되고 효율적인 메모리 증강 생성
LightMem: Lightweight and Efficient Memory-Augmented Generation
October 21, 2025
저자: Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang
cs.AI
초록
놀라운 능력을 갖추고 있음에도 불구하고, 대규모 언어 모델(LLMs)은 동적이고 복잡한 환경에서 과거 상호작용 정보를 효과적으로 활용하는 데 어려움을 겪습니다. 메모리 시스템은 지속적인 정보 저장, 검색 및 활용 메커니즘을 도입함으로써 LLMs가 상태 비저장 상호작용을 넘어서도록 돕습니다. 그러나 기존 메모리 시스템은 종종 상당한 시간 및 계산 오버헤드를 유발합니다. 이를 위해 우리는 성능과 효율성 사이의 균형을 맞춘 새로운 메모리 시스템인 LightMem을 소개합니다. 인간의 기억에 대한 Atkinson-Shiffrin 모델에서 영감을 받은 LightMem은 메모리를 세 가지 상호 보완적인 단계로 구성합니다. 먼저, 인지에서 영감을 받은 감각 메모리는 경량 압축을 통해 관련 없는 정보를 빠르게 필터링하고 주제에 따라 정보를 그룹화합니다. 다음으로, 주제 인식 단기 메모리는 이러한 주제 기반 그룹을 통합하고, 더 구조화된 접근을 위해 내용을 조직하고 요약합니다. 마지막으로, 수면 시간 업데이트를 포함한 장기 메모리는 온라인 추론과 통합을 분리하는 오프라인 절차를 사용합니다. GPT 및 Qwen 백본을 사용한 LongMemEval 실험에서 LightMem은 정확도(최대 10.9% 향상)에서 강력한 베이스라인을 능가하면서 토큰 사용량을 최대 117배, API 호출을 최대 159배, 런타임을 12배 이상 줄였습니다. 코드는 https://github.com/zjunlp/LightMem에서 확인할 수 있습니다.
English
Despite their remarkable capabilities, Large Language Models (LLMs) struggle
to effectively leverage historical interaction information in dynamic and
complex environments. Memory systems enable LLMs to move beyond stateless
interactions by introducing persistent information storage, retrieval, and
utilization mechanisms. However, existing memory systems often introduce
substantial time and computational overhead. To this end, we introduce a new
memory system called LightMem, which strikes a balance between the performance
and efficiency of memory systems. Inspired by the Atkinson-Shiffrin model of
human memory, LightMem organizes memory into three complementary stages. First,
cognition-inspired sensory memory rapidly filters irrelevant information
through lightweight compression and groups information according to their
topics. Next, topic-aware short-term memory consolidates these topic-based
groups, organizing and summarizing content for more structured access. Finally,
long-term memory with sleep-time update employs an offline procedure that
decouples consolidation from online inference. Experiments on LongMemEval with
GPT and Qwen backbones show that LightMem outperforms strong baselines in
accuracy (up to 10.9% gains) while reducing token usage by up to 117x, API
calls by up to 159x, and runtime by over 12x. The code is available at
https://github.com/zjunlp/LightMem.