MemSifter: Auslagerung des LLM-Speicherzugriffs durch ergebnisgesteuerte Proxy-Berechnung

Zusammenfassung

Da Large Language Models (LLMs) zunehmend für Langzeitaufgaben eingesetzt werden, ist die Aufrechterhaltung eines effektiven Langzeitgedächtnisses zu einer kritischen Herausforderung geworden. Bestehende Methoden stehen oft vor einem Zielkonflikt zwischen Kosten und Genauigkeit. Einfache Speichermethoden scheitern häufig an der Wiederauffindung relevanter Informationen, während komplexe Indizierungsmethoden (wie Gedächtnisgraphen) rechenintensiv sind und zu Informationsverlust führen können. Darüber hinaus ist die Abhängigkeit vom arbeitsfähigen LLM zur Verarbeitung aller Erinnerungen rechenaufwendig und langsam. Um diese Einschränkungen zu überwinden, schlagen wir MemSifter vor, ein neuartiges Framework, das den Gedächtnisabrufprozess auf ein Proxy-Modell kleineren Maßstabs auslagert. Anstatt die Belastung des primären Arbeits-LLMs zu erhöhen, nutzt MemSifter ein kleineres Modell, um die Aufgabe vor dem Abruf der notwendigen Informationen zu analysieren. Dieser Ansatz erfordert keine rechenintensive Indizierungsphase und verursacht während des Inferenzvorgangs nur minimalen Overhead. Zur Optimierung des Proxy-Modells führen wir ein spezielles Reinforcement Learning (RL)-Trainingsparadigma für Gedächtnisaufgaben ein. Wir entwerfen eine aufgabenorientierte Belohnungsfunktion basierend auf der tatsächlichen Leistung des Arbeits-LLMs bei der Aufgabenerfüllung. Die Belohnung misst den tatsächlichen Beitrag abgerufener Erinnerungen durch multiple Interaktionen mit dem Arbeits-LLM und unterscheidet Abrufrankings durch stufenweise abnehmende Beiträge. Zusätzlich setzen wir Trainingstechniken wie Curriculum Learning und Model Merging zur Leistungssteigerung ein. Wir evaluierten MemSifter auf acht LLM-Gedächtnis-Benchmarks, einschließlich Deep-Research-Aufgaben. Die Ergebnisse zeigen, dass unsere Methode die Leistung bestehender State-of-the-Art-Ansätze sowohl in der Abrufgenauigkeit als auch bei der endgültigen Aufgabenerfüllung erreicht oder übertrifft. MemSifter bietet eine effiziente und skalierbare Lösung für das Langzeitgedächtnis von LLMs. Wir haben die Modellgewichte, den Code und die Trainingsdaten open-source bereitgestellt, um weitere Forschung zu unterstützen.

English

As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.

MemSifter: Auslagerung des LLM-Speicherzugriffs durch ergebnisgesteuerte Proxy-Berechnung

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

Zusammenfassung

Support