MemSifter: Descarga de la Recuperación de Memoria en LLM mediante Razonamiento Proxy Basado en Resultados
MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
March 3, 2026
Autores: Jiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen
cs.AI
Resumen
A medida que los Modelos de Lenguaje a Gran Escala (LLMs) se utilizan cada vez más para tareas de larga duración, mantener una memoria a largo plazo efectiva se ha convertido en un desafío crítico. Los métodos actuales a menudo enfrentan una disyuntiva entre costo y precisión. Los métodos de almacenamiento simples a menudo fallan en recuperar información relevante, mientras que los métodos de indexación complejos (como los grafos de memoria) requieren un gran cómputo y pueden causar pérdida de información. Además, depender del LLM principal para procesar todos los recuerdos es computacionalmente costoso y lento. Para abordar estas limitaciones, proponemos MemSifter, un marco novedoso que descarga el proceso de recuperación de memoria a un modelo proxy de pequeña escala. En lugar de aumentar la carga en el LLM de trabajo principal, MemSifter utiliza un modelo más pequeño para razonar sobre la tarea antes de recuperar la información necesaria. Este enfoque no requiere cómputo pesado durante la fase de indexación y agrega una sobrecarga mínima durante la inferencia. Para optimizar el modelo proxy, introducimos un paradigma de entrenamiento de Aprendizaje por Refuerzo (RL) específico para memoria. Diseñamos una recompensa orientada al resultado de la tarea basada en el rendimiento real del LLM de trabajo para completarla. La recompensa mide la contribución real de los recuerdos recuperados mediante múltiples interacciones con el LLM de trabajo, y discrimina las clasificaciones recuperadas por contribuciones decrecientes escalonadas. Adicionalmente, empleamos técnicas de entrenamiento como Aprendizaje Curricular y Fusión de Modelos para mejorar el rendimiento. Evaluamos MemSifter en ocho benchmarks de memoria para LLMs, incluyendo tareas de Investigación Profunda. Los resultados demuestran que nuestro método iguala o supera el rendimiento de los enfoques estado del arte existentes tanto en precisión de recuperación como en finalización final de la tarea. MemSifter ofrece una solución eficiente y escalable para la memoria a largo plazo de los LLMs. Hemos liberado los pesos del modelo, el código y los datos de entrenamiento como código abierto para apoyar futuras investigaciones.
English
As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.