ChatPaper.aiChatPaper

MemLoRA: Destilleren van Expert-Adapters voor On-Device Geheugensystemen

MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

December 4, 2025
Auteurs: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI

Samenvatting

Geheugen-augmented Large Language Models (LLM's) hebben opmerkelijke consistentie getoond tijdens langdurige dialogen door relevante herinneringen op te slaan en als context te gebruiken. Dergelijke op geheugen gebaseerde personalisatie is ook cruciaal in on-device omgevingen die gebruikers in staat stellen hun gesprekken en gegevens privé te houden. Echter, geheugen-augmented systemen zijn typisch afhankelijk van LLM's die te kostbaar zijn voor lokale on-device implementatie. Hoewel Small Language Models (SLM's) geschikter zijn voor on-device inferentie dan LLM's, kunnen zij niet voldoende presteren. Bovendien ontbreekt het deze op LLM gebaseerde systemen aan native visuele capaciteiten, wat hun toepasbaarheid in multimodale contexten beperkt. In dit artikel introduceren we (i) MemLoRA, een nieuw geheugensysteem dat lokale implementatie mogelijk maakt door SLM's uit te rusten met gespecialiseerde geheugenadapters, en (ii) de visuele extensie MemLoRA-V, die kleine Vision-Language Models (SVLM's) integreert in geheugensystemen voor native visueel begrip. Volgens de principes van knowledge distillation wordt elke adapter apart getraind voor specifieke geheugenoperaties: kennisextractie, geheugenupdate en geheugen-augmented generatie. Uitgerust met geheugenadapters stellen kleine modellen accurate on-device geheugenoperaties mogelijk zonder cloudafhankelijkheid. Bij tekstuele operaties presteert MemLoRA beter dan baseline-modellen die 10x groter zijn (bijv. Gemma2-27B) en bereikt het prestaties vergelijkbaar met modellen die 60x groter zijn (bijv. GPT-OSS-120B) op de LoCoMo-benchmark. Om visueel begrip te evalueren, breiden we LoCoMo uit met uitdagende Visual Question Answering-taken die direct visueel redeneren vereisen. Hierop toont onze VLM-geïntegreerde MemLoRA-V enorme verbeteringen ten opzichte van op bijschriften gebaseerde benaderingen (81.3 vs. 23.7 nauwkeurigheid) terwijl sterke prestaties in op tekst gebaseerde taken behouden blijven, wat de effectiviteit van onze methode in multimodale contexten aantoont.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.
PDF10December 11, 2025