MemSifter : Délégation de la récupération de mémoire des LLM via un raisonnement proxy axé sur les résultats

Résumé

Alors que les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour des tâches de longue durée, la gestion efficace de la mémoire à long terme est devenue un défi crucial. Les méthodes actuelles se heurtent souvent à un compromis entre coût et précision. Les méthodes de stockage simples échouent souvent à récupérer les informations pertinentes, tandis que les méthodes d'indexation complexes (telles que les graphes de mémoire) nécessitent des calculs intensifs et peuvent entraîner une perte d'information. De plus, s'appuyer sur le LLM principal pour traiter l'intégralité des souvenirs est coûteux en calcul et lent. Pour résoudre ces limitations, nous proposons MemSifter, un nouveau cadre qui délègue le processus de récupération de la mémoire à un modèle proxy de petite taille. Au lieu d'accroître la charge du LLM de travail principal, MemSifter utilise un modèle plus petit pour raisonner sur la tâche avant de récupérer les informations nécessaires. Cette approche ne nécessite aucun calcul intensif pendant la phase d'indexation et ajoute une surcharge minimale lors de l'inférence. Pour optimiser le modèle proxy, nous introduisons un paradigme d'entraînement par apprentissage par renforcement (RL) spécifique à la mémoire. Nous concevons une récompense orientée résultat de tâche basée sur la performance réelle du LLM principal à accomplir la tâche. La récompense mesure la contribution réelle des souvenirs récupérés via de multiples interactions avec le LLM principal, et discrimine les classements de récupération par des contributions décroissantes par paliers. De plus, nous employons des techniques d'entraînement telles que l'apprentissage curriculaire et la fusion de modèles pour améliorer les performances. Nous avons évalué MemSifter sur huit benchmarks de mémoire pour LLM, incluant des tâches de recherche approfondie. Les résultats démontrent que notre méthode égale ou dépasse les performances des approches état de l'art existantes tant en précision de récupération qu'en accomplissement final de la tâche. MemSifter offre une solution efficace et évolutive pour la mémoire à long terme des LLM. Nous avons ouvert les poids des modèles, le code et les données d'entraînement pour soutenir la recherche future.

English

As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.

MemSifter : Délégation de la récupération de mémoire des LLM via un raisonnement proxy axé sur les résultats

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

Résumé

Support