MemLoRA: Дистилляция экспертных адаптеров для встроенных систем памяти
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
December 4, 2025
Авторы: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI
Аннотация
Большие языковые модели с расширенной памятью (LLM) демонстрируют высокую согласованность в ходе продолжительных диалогов за счет сохранения релевантных воспоминаний и их включения в контекст. Такая персонализация на основе памяти также является ключевой в локальных (on-device) сценариях, которые позволяют пользователям сохранять конфиденциальность своих бесед и данных. Однако системы с расширенной памятью обычно полагаются на LLM, которые слишком ресурсоемки для локального развертывания на устройствах. Хотя малые языковые модели (SLM) более пригодны для локального вывода, чем LLM, они не могут обеспечить достаточную производительность. Кроме того, эти системы на основе LLM не обладают встроенными визуальными возможностями, что ограничивает их применимость в мультимодальных контекстах. В данной статье мы представляем (i) MemLoRA — новую систему памяти, которая позволяет осуществлять локальное развертывание, оснащая SLM специализированными адаптерами памяти, и (ii) ее визуальное расширение MemLoRA-V, которое интегрирует малые визуально-языковые модели (SVLM) в системы памяти, обеспечивая встроенное визуальное понимание. Следуя принципам дистилляции знаний, каждый адаптер обучается отдельно для выполнения конкретных операций с памятью: извлечения знаний, обновления памяти и генерации с augmentation памяти. Оснащенные адаптерами памяти, малые модели обеспечивают точные операции с памятью на устройстве без зависимости от облачных сервисов. При выполнении текстовых операций MemLoRA превосходит базовые модели в 10 раз крупнее (например, Gemma2-27B) и демонстрирует производительность, сопоставимую с моделями в 60 раз крупнее (например, GPT-OSS-120B) по критериям бенчмарка LoCoMo. Для оценки операций визуального понимания мы расширяем LoCoMo сложными задачами визуального ответа на вопросы (Visual Question Answering), требующими прямого визуального рассуждения. В этих тестах наша интеграция VLM в MemLoRA-V показывает значительное улучшение по сравнению с подходами на основе генерации заголовков изображений (точность 81.3 против 23.7), сохраняя при этом высокую производительность в текстовых задачах, что демонстрирует эффективность нашего метода в мультимодальных контекстах.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.