Сжатие банка памяти для непрерывной адаптации больших языковых моделей

Аннотация

Крупные языковые модели (LLM) стали основой многих повседневных приложений. Однако по мере эволюции данных их знания быстро устаревают. Задача непрерывного обучения состоит в том, чтобы обновлять LLM новой информацией без стирания ранее приобретенных знаний. Хотя такие методы, как полное тонкое настройка, позволяют интегрировать новые данные, они требуют значительных вычислительных ресурсов и склонны к катастрофическому забыванию, при котором предыдущие знания перезаписываются. Подходы с дополненной памятью решают эту проблему, оснащая LLM банком памяти — внешним модулем памяти, который хранит информацию для будущего использования. Однако эти методы сталкиваются с серьезным ограничением: в реальных сценариях, когда поступают крупномасштабные потоки данных, размер банка памяти постоянно растет. В данной статье мы предлагаем модель MBC, которая сжимает банк памяти с помощью стратегии оптимизации кодбука в процессе онлайн-адаптивного обучения. Для обеспечения стабильности обучения мы также вводим механизм онлайн-сброса, предотвращающий коллапс кодбука. Кроме того, мы используем Key-Value Low-Rank Adaptation в слоях внимания LLM, что позволяет эффективно использовать сжатые представления памяти. Эксперименты на базовых наборах данных для вопроса-ответа показывают, что MBC сокращает размер банка памяти до 0,3% по сравнению с наиболее конкурентоспособным базовым методом, сохраняя при этом высокую точность удержания знаний в процессе онлайн-адаптивного обучения. Наш код общедоступен по адресу https://github.com/Thomkat/MBC.

English

Large Language Models (LLMs) have become a mainstay for many everyday applications. However, as data evolve their knowledge quickly becomes outdated. Continual learning aims to update LLMs with new information without erasing previously acquired knowledge. Although methods such as full fine-tuning can incorporate new data, they are computationally expensive and prone to catastrophic forgetting, where prior knowledge is overwritten. Memory-augmented approaches address this by equipping LLMs with a memory bank, that is an external memory module which stores information for future use. However, these methods face a critical limitation, in particular, the memory bank constantly grows in the real-world scenario when large-scale data streams arrive. In this paper, we propose MBC, a model that compresses the memory bank through a codebook optimization strategy during online adaptation learning. To ensure stable learning, we also introduce an online resetting mechanism that prevents codebook collapse. In addition, we employ Key-Value Low-Rank Adaptation in the attention layers of the LLM, enabling efficient utilization of the compressed memory representations. Experiments with benchmark question-answering datasets demonstrate that MBC reduces the memory bank size to 0.3% when compared against the most competitive baseline, while maintaining high retention accuracy during online adaptation learning. Our code is publicly available at https://github.com/Thomkat/MBC.

Сжатие банка памяти для непрерывной адаптации больших языковых моделей

Memory Bank Compression for Continual Adaptation of Large Language Models

Аннотация

Support