MemSifter: 結果駆動型プロキシ推論によるLLMメモリ検索のオフロード
MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
March 3, 2026
著者: Jiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen
cs.AI
要旨
大規模言語モデル(LLM)が長時間タスクに使用される機会が増えるにつれ、効果的な長期記憶の維持が重要な課題となっている。現在の手法では、コストと精度の間でトレードオフが生じることが多い。単純な記憶方法では関連情報の検索に失敗しがちである一方、複雑な索引付け手法(メモリグラフなど)は計算負荷が高く、情報の損失を招く可能性がある。さらに、作業用LLMにすべての記憶処理を依存すると、計算コストが高く処理速度も遅くなる。これらの制限を解決するため、我々はMemSifterという新しいフレームワークを提案する。これは記憶検索プロセスを小規模なプロキシモデルにオフロードするものである。主要な作業用LLMへの負荷を増加させる代わりに、MemSifterはより小規模なモデルを使用してタスクを推論し、必要な情報を検索する。このアプローチは、索引付け段階での重い計算を必要とせず、推論時のオーバーヘッドも最小限に抑えられる。プロキシモデルを最適化するため、記憶に特化した強化学習(RL)トレーニングパラダイムを導入した。作業用LLMのタスク達成実績に基づくタスク成果指向の報酬を設計し、複数回の相互作用を通じて検索された記憶の実質的貢献度を測定するとともに、段階的に減少する貢献度によって検索順位を識別する。さらに、カリキュラム学習やモデルマージなどのトレーニング技法を採用して性能を向上させた。MemSifterを8つのLLM記憶ベンチマーク(深層研究タスクを含む)で評価した結果、検索精度と最終タスク達成度の両方において、既存の最先端手法の性能に匹敵あるいは凌駕することが示された。MemSifterは長期LLM記憶における効率的かつスケーラブルなソリューションを提供する。さらなる研究の発展に向け、モデル重み、コード、トレーニングデータをオープンソースとして公開している。
English
As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.