MemLoRA: Distillare Adapter Specializzati per Sistemi di Memoria su Dispositivo
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
December 4, 2025
Autori: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI
Abstract
I Large Language Model (LLM) potenziati con memoria hanno dimostrato una notevole coerenza durante dialoghi prolungati, memorizzando ricordi rilevanti e incorporandoli come contesto. Tale personalizzazione basata sulla memoria è fondamentale anche in ambienti on-device che consentono agli utenti di mantenere private le proprie conversazioni e dati. Tuttavia, i sistemi potenziati con memoria si basano tipicamente su LLM troppo costosi per una distribuzione locale su dispositivo. Sebbene i Small Language Model (SLM) siano più adatti per l'inferenza on-device rispetto agli LLM, non riescono a raggiungere prestazioni sufficienti. Inoltre, questi sistemi basati su LLM mancano di capacità visive native, limitando la loro applicabilità in contesti multimodali. In questo articolo, introduciamo (i) MemLoRA, un innovativo sistema di memoria che consente la distribuzione locale equipaggiando gli SLM con adattatori di memoria specializzati, e (ii) la sua estensione visiva MemLoRA-V, che integra piccoli Vision-Language Model (SVLM) nei sistemi di memoria, abilitando la comprensione visiva nativa. Seguendo i principi della distillazione della conoscenza, ogni adattatore viene addestrato separatamente per specifiche operazioni di memoria: estrazione di conoscenza, aggiornamento della memoria e generazione potenziata dalla memoria. Dotati di adattatori di memoria, i modelli piccoli consentono accurate operazioni di memoria on-device senza dipendenza dal cloud. Per operazioni solo testuali, MemLoRA supera modelli di riferimento 10 volte più grandi (ad esempio, Gemma2-27B) e raggiunge prestazioni paragonabili a modelli 60 volte più grandi (ad esempio, GPT-OSS-120B) sul benchmark LoCoMo. Per valutare invece le operazioni di comprensione visiva, estendiamo LoCoMo con impegnativi compiti di Visual Question Answering che richiedono ragionamento visivo diretto. Su questo, la nostra MemLoRA-V integrata con VLM mostra miglioramenti massicci rispetto agli approcci basati su descrizioni (81.3 vs. 23.7 di accuratezza) mantenendo al contempo solide prestazioni nei compiti testuali, dimostrando l'efficacia del nostro metodo in contesti multimodali.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.