LightMem: 軽量で効率的なメモリ拡張生成
LightMem: Lightweight and Efficient Memory-Augmented Generation
October 21, 2025
著者: Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang
cs.AI
要旨
大規模言語モデル(LLM)はその驚異的な能力にもかかわらず、動的で複雑な環境において過去のインタラクション情報を効果的に活用するのに苦戦しています。メモリシステムは、永続的な情報の保存、検索、利用メカニズムを導入することで、LLMがステートレスなインタラクションを超えることを可能にします。しかし、既存のメモリシステムはしばしば大幅な時間と計算コストを伴います。この問題に対処するため、我々はLightMemという新しいメモリシステムを提案します。LightMemは、メモリシステムの性能と効率性のバランスを取ることを目指しています。Atkinson-Shiffrinの人間の記憶モデルに着想を得て、LightMemはメモリを3つの補完的な段階に整理します。まず、認知に基づいた感覚記憶が軽量な圧縮を通じて無関係な情報を迅速にフィルタリングし、トピックに基づいて情報をグループ化します。次に、トピックを意識した短期記憶がこれらのトピックベースのグループを統合し、より構造化されたアクセスのために内容を整理し要約します。最後に、睡眠時間更新を伴う長期記憶が、オンライン推論から統合を切り離すオフラインプロセスを採用します。GPTとQwenをバックボーンとしたLongMemEvalでの実験では、LightMemが精度において強力なベースラインを上回り(最大10.9%の向上)、トークン使用量を最大117倍、API呼び出しを最大159倍、実行時間を12倍以上削減することが示されました。コードはhttps://github.com/zjunlp/LightMemで公開されています。
English
Despite their remarkable capabilities, Large Language Models (LLMs) struggle
to effectively leverage historical interaction information in dynamic and
complex environments. Memory systems enable LLMs to move beyond stateless
interactions by introducing persistent information storage, retrieval, and
utilization mechanisms. However, existing memory systems often introduce
substantial time and computational overhead. To this end, we introduce a new
memory system called LightMem, which strikes a balance between the performance
and efficiency of memory systems. Inspired by the Atkinson-Shiffrin model of
human memory, LightMem organizes memory into three complementary stages. First,
cognition-inspired sensory memory rapidly filters irrelevant information
through lightweight compression and groups information according to their
topics. Next, topic-aware short-term memory consolidates these topic-based
groups, organizing and summarizing content for more structured access. Finally,
long-term memory with sleep-time update employs an offline procedure that
decouples consolidation from online inference. Experiments on LongMemEval with
GPT and Qwen backbones show that LightMem outperforms strong baselines in
accuracy (up to 10.9% gains) while reducing token usage by up to 117x, API
calls by up to 159x, and runtime by over 12x. The code is available at
https://github.com/zjunlp/LightMem.