ChatPaper.aiChatPaper

GeRe: К эффективному предотвращению забывания в непрерывном обучении крупных языковых моделей через воспроизведение общих образцов

GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

August 6, 2025
Авторы: Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen
cs.AI

Аннотация

Способность крупных языковых моделей (LLM) к непрерывному обучению имеет решающее значение для продвижения искусственного общего интеллекта. Однако непрерывная донастройка LLM в различных областях часто сталкивается с проблемой катастрофического забывания, которое характеризуется: 1) значительной потерей общих способностей модели и 2) резким снижением производительности в ранее изученных задачах. Для одновременного решения обеих проблем простым и стабильным способом мы предлагаем General Sample Replay (GeRe) — фреймворк, использующий стандартные тексты предварительного обучения для эффективного предотвращения забывания. Помимо пересмотра наиболее распространенных подходов, основанных на воспроизведении, в рамках GeRe мы также используем нейронные состояния для введения улучшенного метода оптимизации с ограничениями на основе состояний активации, применяя пороговую функцию потерь (TM), которая поддерживает согласованность состояний активации в процессе обучения с воспроизведением. Мы впервые подтверждаем, что небольшой фиксированный набор заранее собранных общих примеров для воспроизведения достаточен для решения обеих проблем — сохранения общих способностей и улучшения общей производительности в последовательных задачах. Действительно, первое может естественным образом способствовать второму. В контролируемых экспериментах мы систематически сравниваем TM с различными стратегиями воспроизведения в рамках фреймворка GeRe, включая стандартное соответствие меткам, имитацию логитов через расхождение Кульбака-Лейблера и имитацию признаков через L1/L2 потери. Результаты показывают, что TM стабильно улучшает производительность и демонстрирует лучшую устойчивость. Наша работа прокладывает путь для эффективного воспроизведения LLM в будущем. Наш код и данные доступны по адресу https://github.com/Qznan/GeRe.
English
The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usual pretraining texts for efficient anti-forgetting. Beyond revisiting the most prevalent replay-based practices under GeRe, we further leverage neural states to introduce a enhanced activation states constrained optimization method using threshold-based margin (TM) loss, which maintains activation state consistency during replay learning. We are the first to validate that a small, fixed set of pre-collected general replay samples is sufficient to resolve both concerns--retaining general capabilities while promoting overall performance across sequential tasks. Indeed, the former can inherently facilitate the latter. Through controlled experiments, we systematically compare TM with different replay strategies under the GeRe framework, including vanilla label fitting, logit imitation via KL divergence and feature imitation via L1/L2 losses. Results demonstrate that TM consistently improves performance and exhibits better robustness. Our work paves the way for efficient replay of LLMs for the future. Our code and data are available at https://github.com/Qznan/GeRe.
PDF12August 13, 2025