MemSifter: Uitbesteding van LLM-geheugenretrieval via resultaatgestuurd proxy-redeneren
MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
March 3, 2026
Auteurs: Jiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen
cs.AI
Samenvatting
Aangezien Large Language Models (LLM's) steeds vaker worden ingezet voor langdurige taken, is het effectief behouden van een langetermijngeheugen een kritieke uitdaging geworden. Huidige methoden kampen vaak met een afweging tussen kosten en nauwkeurigheid. Eenvoudige opslagmethoden slagen er vaak niet in relevante informatie op te halen, terwijl complexe indexeringsmethoden (zoals geheugengrafen) zware berekeningen vereisen en tot informatieverlies kunnen leiden. Bovendien is het rekenintensief en traag om voor alle herinneringen te vertrouwen op het werkende LLM. Om deze beperkingen aan te pakken, stellen we MemSifter voor, een nieuw framework dat het geheugenophaalproces delegeert naar een kleinschalig proxy-model. In plaats van de last op het primaire werkende LLM te vergroten, gebruikt MemSifter een kleiner model om over de taak te redeneren voordat de benodigde informatie wordt opgehaald. Deze aanpak vereist geen zware berekeningen tijdens de indexeringsfase en voegt tijdens de inferentie minimale overhead toe. Om het proxy-model te optimaliseren, introduceren we een geheugenspecifiek Reinforcement Learning (RL) trainingsparadigma. We ontwerpen een taakresultaat-gerichte beloning op basis van de daadwerkelijke prestaties van het werkende LLM bij het voltooien van de taak. De beloning meet de werkelijke bijdrage van opgehaalde herinneringen door middel van meerdere interacties met het werkende LLM, en onderscheidt opgehaalde rangschikkingen op basis van trapsgewijs afnemende bijdragen. Daarnaast gebruiken we trainingstechnieken zoals Curriculum Learning en Model Merging om de prestaties te verbeteren. We evalueerden MemSifter op acht LLM-geheugenbenchmarks, inclusief Deep Research-taken. De resultaten tonen aan dat onze methode de prestaties van bestaande state-of-the-art benaderingen evenaart of overtreft op zowel ophaalnauwkeurigheid als uiteindelijke taakvoltooiing. MemSifter biedt een efficiënte en schaalbare oplossing voor langetermijngeheugen van LLM's. We hebben de modelgewichten, code en trainingsdata openbaar gemaakt om verder onderzoek te ondersteunen.
English
As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.