Speicherbankenkompression zur kontinuierlichen Anpassung großer Sprachmodelle
Memory Bank Compression for Continual Adaptation of Large Language Models
January 2, 2026
papers.authors: Thomas Katraouras, Dimitrios Rafailidis
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) sind zu einem Grundpfeiler vieler alltäglicher Anwendungen geworden. Allerdings werden ihr Wissen mit der Entwicklung der Daten schnell veraltet. Kontinuierliches Lernen zielt darauf ab, LLMs mit neuen Informationen zu aktualisieren, ohne zuvor erworbenes Wissen zu löschen. Obwohl Methoden wie das vollständige Feinabstimmen (Full Fine-Tuning) neue Daten integrieren können, sind sie rechenintensiv und anfällig für katastrophales Vergessen, bei dem früheres Wissen überschrieben wird. Speichergestützte Ansätze adressieren dies, indem sie LLMs mit einem Speicherbank, also einem externen Speichermodul, ausstatten, das Informationen für die zukünftige Verwendung speichert. Diese Methoden stoßen jedoch auf eine entscheidende Einschränkung: Insbesondere in realen Szenarien mit großskaligen Datenströmen wächst die Speicherbank ständig. In diesem Artikel schlagen wir MBC vor, ein Modell, das die Speicherbank während des Online-Anpassungslernens durch eine Codebuch-Optimierungsstrategie komprimiert. Um stabiles Lernen zu gewährleisten, führen wir zudem einen Online-Reset-Mechanismus ein, der einen Codebuch-Kollaps verhindert. Darüber hinaus setzen wir Key-Value Low-Rank Adaptation in den Aufmerksamkeitsschichten des LLM ein, was eine effiziente Nutzung der komprimierten Speicherrepräsentationen ermöglicht. Experimente mit Benchmark-Datensätzen für Frage-Antwort-Aufgaben zeigen, dass MBC die Größe der Speicherbank im Vergleich zur wettbewerbsfähigsten Baseline auf 0,3 % reduziert, während während des Online-Anpassungslernens eine hohe Behaltensgenauigkeit erhalten bleibt. Unser Code ist öffentlich verfügbar unter https://github.com/Thomkat/MBC.
English
Large Language Models (LLMs) have become a mainstay for many everyday applications. However, as data evolve their knowledge quickly becomes outdated. Continual learning aims to update LLMs with new information without erasing previously acquired knowledge. Although methods such as full fine-tuning can incorporate new data, they are computationally expensive and prone to catastrophic forgetting, where prior knowledge is overwritten. Memory-augmented approaches address this by equipping LLMs with a memory bank, that is an external memory module which stores information for future use. However, these methods face a critical limitation, in particular, the memory bank constantly grows in the real-world scenario when large-scale data streams arrive. In this paper, we propose MBC, a model that compresses the memory bank through a codebook optimization strategy during online adaptation learning. To ensure stable learning, we also introduce an online resetting mechanism that prevents codebook collapse. In addition, we employ Key-Value Low-Rank Adaptation in the attention layers of the LLM, enabling efficient utilization of the compressed memory representations. Experiments with benchmark question-answering datasets demonstrate that MBC reduces the memory bank size to 0.3% when compared against the most competitive baseline, while maintaining high retention accuracy during online adaptation learning. Our code is publicly available at https://github.com/Thomkat/MBC.