ChatPaper.aiChatPaper

MemLoRA: 온디바이스 메모리 시스템을 위한 전문가 어댑터 지식 증류

MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

December 4, 2025
저자: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
cs.AI

초록

메모리 증강 대규모 언어 모델(LLM)은 관련 메모리를 저장하고 이를 컨텍스트로 통합함으로써 장기간 대화 동안 뛰어난 일관성을 보여주고 있습니다. 이러한 메모리 기반 개인화는 사용자가 대화와 데이터를 비공개로 유지할 수 있는 온디바이스 환경에서도 핵심적입니다. 그러나 메모리 증강 시스템은 일반적으로 로컬 온디바이스 배포에 비용이 너무 많이 드는 LLM에 의존합니다. 소규모 언어 모델(SLM)이 LLM보다 온디바이스 추론에 더 적합함에도 불구하고, 이들은 충분한 성능을 달성하지 못합니다. 또한 이러한 LLM 기반 시스템은 기본적인 시각 능력이 부족하여 다중 모달리티 컨텍스트에서의 적용이 제한됩니다. 본 논문에서는 (i) 특화된 메모리 어댑터를 통해 SLM을 구축하여 로컬 배포를 가능하게 하는 새로운 메모리 시스템인 MemLoRA와, (ii) 소규모 시각-언어 모델(SVLM)을 메모리 시스템에 통합하여 기본적인 시각 이해를 가능하게 하는 MemLoRA의 시각 확장판인 MemLoRA-V를 소개합니다. 지식 증류 원리에 따라 각 어댑터는 특정 메모리 작업(지식 추출, 메모리 갱신, 메모리 증강 생성)에 대해 별도로 훈련됩니다. 메모리 어댑터를 장착한 소규모 모델은 클라우드 의존 없이 정확한 온디바이스 메모리 작업을 가능하게 합니다. 텍스트 전용 작업에서 MemLoRA는 10배 더 큰 기준 모델(예: Gemma2-27B)을 능가하며 LoCoMo 벤치마크에서 60배 더 큰 모델(예: GPT-OSS-120B)에 버금가는 성능을 달성합니다. 시각 이해 작업을 평가하기 위해, 우리는 직접적인 시각 추론을 요구하는 도전적인 시각 질의응답 작업으로 LoCoMo를 확장했습니다. 여기서 우리의 VLM 통합 MemLoRA-V는 캡션 기반 접근법보다 엄청난 향상(정확도 81.3 대 23.7)을 보여주면서도 텍스트 기반 작업에서 강력한 성능을 유지하여, 다중 모달리티 컨텍스트에서 우리 방법의 효용성을 입증했습니다.
English
Memory-augmented Large Language Models (LLMs) have demonstrated remarkable consistency during prolonged dialogues by storing relevant memories and incorporating them as context. Such memory-based personalization is also key in on-device settings that allow users to keep their conversations and data private. However, memory-augmented systems typically rely on LLMs that are too costly for local on-device deployment. Even though Small Language Models (SLMs) are more suitable for on-device inference than LLMs, they cannot achieve sufficient performance. Additionally, these LLM-based systems lack native visual capabilities, limiting their applicability in multimodal contexts. In this paper, we introduce (i) MemLoRA, a novel memory system that enables local deployment by equipping SLMs with specialized memory adapters, and (ii) its vision extension MemLoRA-V, which integrates small Vision-Language Models (SVLMs) to memory systems, enabling native visual understanding. Following knowledge distillation principles, each adapter is trained separately for specific memory operationsx2013knowledge extraction, memory update, and memory-augmented generation. Equipped with memory adapters, small models enable accurate on-device memory operations without cloud dependency. On text-only operations, MemLoRA outperforms 10times larger baseline models (e.g., Gemma2-27B) and achieves performance comparable to 60times larger models (e.g., GPT-OSS-120B) on the LoCoMo benchmark. To evaluate visual understanding operations instead, we extend LoCoMo with challenging Visual Question Answering tasks that require direct visual reasoning. On this, our VLM-integrated MemLoRA-V shows massive improvements over caption-based approaches (81.3 vs. 23.7 accuracy) while keeping strong performance in text-based tasks, demonstrating the efficacy of our method in multimodal contexts.
PDF10December 11, 2025