ChatPaper.aiChatPaper

MemLoRA: Destilación de Adaptadores Expertos para Sistemas de Memoria en Dispositivos

MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

December 4, 2025
Autores: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Aumentados con Memoria (LLM) han demostrado una notable consistencia durante diálogos prolongados al almacenar recuerdos relevantes e incorporarlos como contexto. Esta personalización basada en memoria también es clave en entornos locales que permiten a los usuarios mantener sus conversaciones y datos privados. Sin embargo, los sistemas aumentados con memoria suelen depender de LLM que son demasiado costosos para su despliegue local. Aunque los Modelos de Lenguaje Pequeños (SLM) son más adecuados para la inferencia local que los LLM, no logran un rendimiento suficiente. Además, estos sistemas basados en LLM carecen de capacidades visuales nativas, lo que limita su aplicabilidad en contextos multimodales. En este artículo, presentamos (i) MemLoRA, un novedoso sistema de memoria que permite el despliegue local al equipar SLM con adaptadores de memoria especializados, y (ii) su extensión visual MemLoRA-V, que integra pequeños Modelos de Visión y Lenguaje (SVLM) en sistemas de memoria, permitiendo una comprensión visual nativa. Siguiendo principios de destilación de conocimiento, cada adaptador se entrena por separado para operaciones de memoria específicas: extracción de conocimiento, actualización de memoria y generación aumentada con memoria. Equipados con adaptadores de memoria, los modelos pequeños permiten operaciones de memoria locales precisas sin dependencia de la nube. En operaciones exclusivamente textuales, MemLoRA supera a modelos base 10 veces más grandes (p. ej., Gemma2-27B) y logra un rendimiento comparable a modelos 60 veces más grandes (p. ej., GPT-OSS-120B) en el benchmark LoCoMo. Para evaluar operaciones de comprensión visual, extendemos LoCoMo con tareas desafiantes de Respuesta a Preguntas Visuales que requieren razonamiento visual directo. En esto, nuestro MemLoRA-V integrado con VLM muestra mejoras masivas frente a enfoques basados en descripciones (81.3 vs. 23.3 de precisión) manteniendo un fuerte rendimiento en tareas basadas en texto, lo que demuestra la eficacia de nuestro método en contextos multimodales.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.
PDF10December 11, 2025