Compression de la banque de mémoire pour l'adaptation continue des grands modèles de langage
Memory Bank Compression for Continual Adaptation of Large Language Models
January 2, 2026
papers.authors: Thomas Katraouras, Dimitrios Rafailidis
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont devenus un pilier pour de nombreuses applications quotidiennes. Cependant, avec l'évolution des données, leurs connaissances deviennent rapidement obsolètes. L'apprentissage continu vise à mettre à jour les LLM avec de nouvelles informations sans effacer les connaissances préalablement acquises. Bien que des méthodes comme le réglage fin complet puissent intégrer de nouvelles données, elles sont coûteuses en calcul et sujettes à l'oubli catastrophique, où les connaissances antérieures sont écrasées. Les approches à mémoire augmentée abordent ce problème en équipant les LLM d'une banque de mémoire, c'est-à-dire un module de mémoire externe qui stocke des informations pour une utilisation future. Cependant, ces méthodes rencontrent une limite critique : en particulier, la banque de mémoire ne cesse de croître dans un scénario réel lorsque des flux de données à grande échelle arrivent. Dans cet article, nous proposons MBC, un modèle qui compresse la banque de mémoire via une stratégie d'optimisation par codebook pendant l'apprentissage d'adaptation en ligne. Pour garantir un apprentissage stable, nous introduisons également un mécanisme de réinitialisation en ligne qui empêche l'effondrement du codebook. De plus, nous utilisons l'adaptation Key-Value Low-Rank dans les couches d'attention du LLM, permettant une utilisation efficace des représentations mémorielles compressées. Des expériences avec des ensembles de données de référence pour la question-réponse démontrent que MBC réduit la taille de la banque de mémoire à 0,3 % par rapport à la base de référence la plus compétitive, tout en maintenant une haute précision de rétention pendant l'apprentissage d'adaptation en ligne. Notre code est disponible publiquement à l'adresse https://github.com/Thomkat/MBC.
English
Large Language Models (LLMs) have become a mainstay for many everyday applications. However, as data evolve their knowledge quickly becomes outdated. Continual learning aims to update LLMs with new information without erasing previously acquired knowledge. Although methods such as full fine-tuning can incorporate new data, they are computationally expensive and prone to catastrophic forgetting, where prior knowledge is overwritten. Memory-augmented approaches address this by equipping LLMs with a memory bank, that is an external memory module which stores information for future use. However, these methods face a critical limitation, in particular, the memory bank constantly grows in the real-world scenario when large-scale data streams arrive. In this paper, we propose MBC, a model that compresses the memory bank through a codebook optimization strategy during online adaptation learning. To ensure stable learning, we also introduce an online resetting mechanism that prevents codebook collapse. In addition, we employ Key-Value Low-Rank Adaptation in the attention layers of the LLM, enabling efficient utilization of the compressed memory representations. Experiments with benchmark question-answering datasets demonstrate that MBC reduces the memory bank size to 0.3% when compared against the most competitive baseline, while maintaining high retention accuracy during online adaptation learning. Our code is publicly available at https://github.com/Thomkat/MBC.