MemSifter: Descarregando a Recuperação de Memória de LLM via Raciocínio Proxy Orientado a Resultados

Resumo

**MemSifter: Um Framework Eficiente para Memória de Longo Prazo em LLMs com um Modelo Proxy** À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais utilizados para tarefas de longa duração, a manutenção de uma memória de longo prazo eficaz tornou-se um desafio crítico. Os métodos atuais frequentemente enfrentam um compromisso entre custo e precisão. Métodos simples de armazenamento frequentemente falham em recuperar informações relevantes, enquanto métodos complexos de indexação (como grafos de memória) exigem computação intensa e podem causar perda de informação. Além disso, depender do LLM principal para processar todas as memórias é computacionalmente caro e lento. Para superar essas limitações, propomos o MemSifter, um novo framework que descarrega o processo de recuperação de memória para um modelo proxy de pequena escala. Em vez de aumentar a carga no LLM de trabalho principal, o MemSifter utiliza um modelo menor para raciocinar sobre a tarefa antes de recuperar as informações necessárias. Esta abordagem não requer computação pesada durante a fase de indexação e adiciona uma sobrecarga mínima durante a inferência. Para otimizar o modelo proxy, introduzimos um paradigma de treinamento de Aprendizado por Reforço (RL) específico para memória. Projetamos uma recompensa orientada para o resultado da tarefa, baseada no desempenho real do LLM principal em completar a tarefa. A recompensa mede a contribuição real das memórias recuperadas através de múltiplas interações com o LLM principal e discrimina os rankings de recuperação por meio de contribuições decrescentes escalonadas. Adicionalmente, empregamos técnicas de treinamento como Aprendizado Curricular e Fusão de Modelos para melhorar o desempenho. Avaliamos o MemSifter em oito benchmarks de memória para LLMs, incluindo tarefas de Pesquisa Profunda (Deep Research). Os resultados demonstram que o nosso método iguala ou supera o desempenho das abordagens state-of-the-art existentes, tanto em precisão de recuperação quanto na conclusão final da tarefa. O MemSifter oferece uma solução eficiente e escalável para a memória de longo prazo em LLMs. Disponibilizamos publicamente os pesos do modelo, o código e os dados de treinamento para apoiar pesquisas futuras.

English

As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.

MemSifter: Descarregando a Recuperação de Memória de LLM via Raciocínio Proxy Orientado a Resultados

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

Resumo

Support