MemLoRA: Destillieren von Experten-Adaptern für On-Device-Speichersysteme
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
December 4, 2025
papers.authors: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI
papers.abstract
Speichererweiterte Large Language Models (LLMs) haben eine bemerkenswerte Konsistenz in längeren Dialogen bewiesen, indem sie relevante Erinnerungen speichern und als Kontext einbeziehen. Eine solche speicherbasierte Personalisierung ist auch in On-Device-Umgebungen entscheidend, die es Nutzern ermöglichen, ihre Gespräche und Daten privat zu halten. Allerdings basieren speichererweiterte Systeme typischerweise auf LLMs, die für den lokalen On-Device-Einsatz zu rechenintensiv sind. Obwohl Small Language Models (SLMs) für On-Device-Inferenz besser geeignet sind als LLMs, können sie keine ausreichende Leistung erbringen. Zudem fehlt diesen LLM-basierten Systemen native visuelle Fähigkeiten, was ihre Anwendbarkeit in multimodalen Kontexten einschränkt. In diesem Artikel stellen wir vor: (i) MemLoRA, ein neuartiges Speichersystem, das die lokale Bereitstellung ermöglicht, indem es SLMs mit spezialisierten Speicher-Adaptern ausstattet, und (ii) seine Vision-Erweiterung MemLoRA-V, die kleine Vision-Language Models (SVLMs) in Speichersysteme integriert und damit natives visuelles Verständnis ermöglicht. Nach den Prinzipien der Wissensdistillation wird jeder Adapter separat für spezifische Speicheroperationen trainiert – Wissensextraktion, Speicheraktualisierung und speichererweiterte Generierung. Mit Speicher-Adaptern ausgestattet, ermöglichen kleine Modelle präzise On-Device-Speicheroperationen ohne Cloud-Abhängigkeit. Bei reinen Textoperationen übertrifft MemLoRA 10-mal größere Basismodelle (z.B. Gemma2-27B) und erreicht eine Leistung, die mit 60-mal größeren Modellen (z.B. GPT-OSS-120B) auf dem LoCoMo-Benchmark vergleichbar ist. Um visuelle Verständnisoperationen zu bewerten, erweitern wir LoCoMo um anspruchsvolle Visual Question Answering-Aufgaben, die direktes visuelles Schlussfolgern erfordern. Hierbei zeigt unsere VLM-integrierte MemLoRA-V massive Verbesserungen gegenüber caption-basierten Ansätzen (81,3 vs. 23,3 Genauigkeit), bei gleichzeitig starker Leistung in textbasierten Aufgaben, was die Wirksamkeit unserer Methode in multimodalen Kontexten demonstriert.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.