ChatPaper.aiChatPaper

MemSifter: Выгрузка извлечения памяти больших языковых моделей посредством целеориентированного прокси-рассуждения

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

March 3, 2026
Авторы: Jiejun Tan, Zhicheng Dou, Liancheng Zhang, Yuyang Hu, Yiruo Cheng, Ji-Rong Wen
cs.AI

Аннотация

По мере того как большие языковые модели (LLM) все чаще применяются для решения долгосрочных задач, поддержание эффективной долговременной памяти становится критически важной проблемой. Существующие методы часто сталкиваются с компромиссом между стоимостью и точностью. Простые методы хранения часто не позволяют извлекать релевантную информацию, в то время как сложные методы индексации (такие как графы памяти) требуют значительных вычислительных ресурсов и могут приводить к потере информации. Более того, зависимость от рабочей LLM для обработки всей памяти является вычислительно затратной и медленной. Для преодоления этих ограничений мы предлагаем MemSifter — новую архитектуру, которая перекладывает процесс извлечения памяти на прокси-модель малого масштаба. Вместо увеличения нагрузки на основную рабочую LLM, MemSifter использует меньшую модель для анализа задачи перед извлечением необходимой информации. Этот подход не требует тяжелых вычислений на этапе индексации и добавляет минимальные накладные расходы во время вывода. Для оптимизации прокси-модели мы вводим парадигму обучения с подкреплением (RL), специфичную для работы с памятью. Мы разрабатываем ориентированное на результат задачи вознаграждение на основе фактической производительности рабочей LLM при выполнении задачи. Вознаграждение измеряет реальный вклад извлеченных воспоминаний посредством множественных взаимодействий с рабочей LLM и дифференцирует рейтинги извлечения по ступенчато убывающему вкладу. Дополнительно мы применяем такие методы обучения, как поэтапное обучение (Curriculum Learning) и слияние моделей (Model Merging), для повышения производительности. Мы оценили MemSifter на восьми тестовых наборах для проверки памяти LLM, включая задачи глубокого исследования (Deep Research). Результаты демонстрируют, что наш метод соответствует или превосходит производительность существующих передовых подходов как по точности извлечения, так и по итоговому выполнению задачи. MemSifter предлагает эффективное и масштабируемое решение для долговременной памяти LLM. Мы открыли веса моделей, код и данные обучения для поддержки дальнейших исследований.
English
As Large Language Models (LLMs) are increasingly used for long-duration tasks, maintaining effective long-term memory has become a critical challenge. Current methods often face a trade-off between cost and accuracy. Simple storage methods often fail to retrieve relevant information, while complex indexing methods (such as memory graphs) require heavy computation and can cause information loss. Furthermore, relying on the working LLM to process all memories is computationally expensive and slow. To address these limitations, we propose MemSifter, a novel framework that offloads the memory retrieval process to a small-scale proxy model. Instead of increasing the burden on the primary working LLM, MemSifter uses a smaller model to reason about the task before retrieving the necessary information. This approach requires no heavy computation during the indexing phase and adds minimal overhead during inference. To optimize the proxy model, we introduce a memory-specific Reinforcement Learning (RL) training paradigm. We design a task-outcome-oriented reward based on the working LLM's actual performance in completing the task. The reward measures the actual contribution of retrieved memories by mutiple interactions with the working LLM, and discriminates retrieved rankings by stepped decreasing contributions. Additionally, we employ training techniques such as Curriculum Learning and Model Merging to improve performance. We evaluated MemSifter on eight LLM memory benchmarks, including Deep Research tasks. The results demonstrate that our method meets or exceeds the performance of existing state-of-the-art approaches in both retrieval accuracy and final task completion. MemSifter offers an efficient and scalable solution for long-term LLM memory. We have open-sourced the model weights, code, and training data to support further research.
PDF232March 6, 2026