대규모 언어 모델의 지속적 적응을 위한 메모리 뱅크 압축
Memory Bank Compression for Continual Adaptation of Large Language Models
January 2, 2026
저자: Thomas Katraouras, Dimitrios Rafailidis
cs.AI
초록
대규모 언어 모델(LLM)은 많은 일상적인 애플리케이션의 핵심 요소가 되었습니다. 그러나 데이터가 진화함에 따라 모델의 지식은 빠르게 구식이 됩니다. 지속 학습은 기존에 습득한 지식을 지우지 않고 새로운 정보로 LLM을 업데이트하는 것을 목표로 합니다. 전체 파인튜닝과 같은 방법은 새로운 데이터를 통합할 수 있지만, 계산 비용이 많이 들고 과거 지식이 덮어쓰여지는 치명적 망각 문제가 발생하기 쉽습니다. 메모리 증강 접근법은 LLM에 외부 메모리 모듈인 메모리 뱅크를 장착하여 향후 사용을 위한 정보를 저장함으로써 이 문제를 해결합니다. 그러나 이러한 방법은 특히 대규모 데이터 스트림이 유입되는 실제 시나리오에서 메모리 뱅크가 지속적으로 증가한다는 중요한 한계에 직면합니다. 본 논문에서는 온라인 적응 학습 과정에서 코드북 최적화 전략을 통해 메모리 뱅크를 압축하는 MBC 모델을 제안합니다. 안정적인 학습을 보장하기 위해 코드북 붕괴를 방지하는 온라인 재설정 메커니즘도 도입합니다. 또한 LLM의 어텐션 레이어에 Key-Value Low-Rank Adaptation을 적용하여 압축된 메모리 표현을 효율적으로 활용할 수 있도록 합니다. 벤치마크 질의응답 데이터셋을 이용한 실험 결과, MBC는 가장 경쟁력 있는 기준 모델 대비 메모리 뱅크 크기를 0.3%로 줄이면서도 온라인 적응 학습 중 높은 기억 정확도를 유지하는 것으로 나타났습니다. 우리의 코드는 https://github.com/Thomkat/MBC에서 공개되어 있습니다.
English
Large Language Models (LLMs) have become a mainstay for many everyday applications. However, as data evolve their knowledge quickly becomes outdated. Continual learning aims to update LLMs with new information without erasing previously acquired knowledge. Although methods such as full fine-tuning can incorporate new data, they are computationally expensive and prone to catastrophic forgetting, where prior knowledge is overwritten. Memory-augmented approaches address this by equipping LLMs with a memory bank, that is an external memory module which stores information for future use. However, these methods face a critical limitation, in particular, the memory bank constantly grows in the real-world scenario when large-scale data streams arrive. In this paper, we propose MBC, a model that compresses the memory bank through a codebook optimization strategy during online adaptation learning. To ensure stable learning, we also introduce an online resetting mechanism that prevents codebook collapse. In addition, we employ Key-Value Low-Rank Adaptation in the attention layers of the LLM, enabling efficient utilization of the compressed memory representations. Experiments with benchmark question-answering datasets demonstrate that MBC reduces the memory bank size to 0.3% when compared against the most competitive baseline, while maintaining high retention accuracy during online adaptation learning. Our code is publicly available at https://github.com/Thomkat/MBC.