ChatPaper.aiChatPaper

MemLoRA: Destilando Adaptadores Especializados para Sistemas de Memória em Dispositivos

MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

December 4, 2025
Autores: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI

Resumo

Os Modelos de Linguagem Grande Aumentados por Memória (LLMs) demonstraram uma consistência notável durante diálogos prolongados, armazenando memórias relevantes e incorporando-as como contexto. Essa personalização baseada em memória também é fundamental em ambientes *on-device* que permitem aos usuários manter suas conversas e dados privados. No entanto, os sistemas aumentados por memória normalmente dependem de LLMs que são demasiado dispendiosos para implantação local em dispositivos. Embora os Modelos de Linguagem Pequenos (SLMs) sejam mais adequados para inferência *on-device* do que os LLMs, eles não conseguem alcançar desempenho suficiente. Adicionalmente, esses sistemas baseados em LLMs carecem de capacidades visuais nativas, limitando sua aplicabilidade em contextos multimodais. Neste artigo, introduzimos (i) o MemLoRA, um novo sistema de memória que permite a implantação local ao equipar SLMs com adaptadores de memória especializados, e (ii) sua extensão visual MemLoRA-V, que integra Pequenos Modelos de Visão e Linguagem (SVLMs) aos sistemas de memória, permitindo a compreensão visual nativa. Seguindo os princípios da destilação de conhecimento, cada adaptador é treinado separadamente para operações específicas de memória – extração de conhecimento, atualização de memória e geração aumentada por memória. Equipados com adaptadores de memória, os modelos pequenos permitem operações de memória *on-device* precisas sem dependência da nuvem. Em operações apenas de texto, o MemLoRA supera modelos de linha de base 10 vezes maiores (por exemplo, Gemma2-27B) e alcança um desempenho comparável a modelos 60 vezes maiores (por exemplo, GPT-OSS-120B) no benchmark LoCoMo. Para avaliar operações de compreensão visual, estendemos o LoCoMo com tarefas desafiadoras de Resposta a Perguntas Visuais que exigem raciocínio visual direto. Neste, nosso MemLoRA-V integrado com VLM mostra melhorias massivas em relação a abordagens baseadas em legendas (81,3 vs. 23,7 de precisão), mantendo um forte desempenho em tarefas baseadas em texto, demonstrando a eficácia do nosso método em contextos multimodais.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.
PDF41February 27, 2026