MemLoRA : Distillation d'adaptateurs experts pour les systèmes mémoire embarqués
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems
December 4, 2025
papers.authors: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI
papers.abstract
Les grands modèles de langage augmentés par mémoire (LLM) ont démontré une remarquable cohérence lors de dialogues prolongés en stockant des souvenirs pertinents et en les intégrant comme contexte. Une telle personnalisation basée sur la mémoire est également cruciale dans les environnements sur appareil qui permettent aux utilisateurs de garder leurs conversations et données privées. Cependant, les systèmes à mémoire reposent généralement sur des LLM trop coûteux pour un déploiement local sur appareil. Bien que les petits modèles de langage (SLM) soient plus adaptés à l'inférence sur appareil que les LLM, ils ne peuvent atteindre des performances suffisantes. De plus, ces systèmes basés sur des LLM manquent de capacités visuelles natives, limitant leur applicabilité dans des contextes multimodaux. Dans cet article, nous présentons (i) MemLoRA, un nouveau système de mémoire permettant un déploiement local en équipant les SLM d'adaptateurs de mémoire spécialisés, et (ii) son extension visuelle MemLoRA-V, qui intègre de petits modèles vision-langage (SVLM) aux systèmes de mémoire, permettant une compréhension visuelle native. Suivant les principes de distillation de connaissances, chaque adaptateur est entraîné séparément pour des opérations mémoire spécifiques – extraction de connaissances, mise à jour de la mémoire et génération augmentée par la mémoire. Équipés d'adaptateurs de mémoire, les petits modèles permettent des opérations mémoire précises sur appareil sans dépendance au cloud. Sur les opérations textuelles uniquement, MemLoRA surpasse des modèles de référence 10 fois plus grands (par exemple, Gemma2-27B) et atteint des performances comparables à des modèles 60 fois plus grands (par exemple, GPT-OSS-120B) sur le benchmark LoCoMo. Pour évaluer les opérations de compréhension visuelle, nous étendons LoCoMo avec des tâches complexes de question-réponse visuelle qui nécessitent un raisonnement visuel direct. Sur ce point, notre MemLoRA-V intégrant un VLM montre des améliorations massives par rapport aux approches basées sur les légendes (81,3 contre 23,7 de précision) tout en maintenant de solides performances dans les tâches textuelles, démontrant l'efficacité de notre méthode dans des contextes multimodaux.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.