MemSifter: Scaricamento del Recupero della Memoria LLM tramite Ragionamento Proxy Guidato dai Risultati
MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
March 3, 2026
Autori: Jiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen
cs.AI
Abstract
Man mano che i Large Language Model (LLM) vengono sempre più impiegati per compiti di lunga durata, mantenere una memoria a lungo termine efficace è diventata una sfida cruciale. I metodi attuali spesso devono affrontare un compromesso tra costo e accuratezza. I semplici metodi di archiviazione spesso non riescono a recuperare le informazioni rilevanti, mentre i metodi di indicizzazione complessi (come i grafi di memoria) richiedono un calcolo intensivo e possono causare perdita di informazioni. Inoltre, affidarsi all'LLM principale per elaborare tutti i ricordi è computazionalmente costoso e lento. Per affrontare queste limitazioni, proponiamo MemSifter, un nuovo framework che delega il processo di recupero della memoria a un modello proxy di piccole dimensioni. Invece di aumentare il carico sull'LLM di lavoro principale, MemSifter utilizza un modello più piccolo per ragionare sul compito prima di recuperare le informazioni necessarie. Questo approccio non richiede calcoli pesanti durante la fase di indicizzazione e aggiunge un sovraccarico minimo durante l'inferenza. Per ottimizzare il modello proxy, introduciamo un paradigma di addestramento con Reinforcement Learning (RL) specifico per la memoria. Progettiamo una ricompensa orientata al risultato del compito, basata sulle prestazioni effettive dell'LLM principale nel portare a termine il compito. La ricompensa misura il contributo effettivo dei ricordi recuperati attraverso molteplici interazioni con l'LLM principale e discrimina le classificazioni dei risultati recuperati in base a contributi decrescenti a gradini. Inoltre, impieghiamo tecniche di addestramento come l'Apprendimento Curriculare (Curriculum Learning) e la Fusione di Modelli (Model Merging) per migliorare le prestazioni. Abbiamo valutato MemSifter su otto benchmark di memoria per LLM, inclusi compiti di Deep Research. I risultati dimostrano che il nostro metodo eguaglia o supera le prestazioni degli approcci allo stato dell'arte esistenti sia in accuratezza di recupero che nel completamento finale del compito. MemSifter offre una soluzione efficiente e scalabile per la memoria a lungo termine degli LLM. Abbiamo reso open-source i pesi del modello, il codice e i dati di addestramento per supportare ulteriori ricerche.
English
As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.