ChatPaper.aiChatPaper

GeRe:汎用サンプル再生によるLLMの継続学習における効率的な忘却防止に向けて

GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

August 6, 2025
著者: Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen
cs.AI

要旨

大規模言語モデル(LLM)の継続学習能力は、人工汎用知能の進展において極めて重要である。しかし、様々なドメインにわたるLLMの継続的ファインチューニングは、しばしば破滅的忘却に悩まされる。これは、1) 一般的な能力の著しい忘却、および 2) 以前に学習したタスクにおける急激な性能低下として特徴づけられる。これらの問題を同時に解決するため、我々はシンプルかつ安定した方法として、General Sample Replay(GeRe)を提案する。これは、効率的な忘却防止のために通常の事前学習テキストを利用するフレームワークである。GeReの下で最も一般的なリプレイベースの手法を再検討するだけでなく、ニューラル状態を活用して、閾値ベースのマージン(TM)損失を用いた強化された活性化状態制約最適化手法を導入し、リプレイ学習中の活性化状態の一貫性を維持する。我々は、事前に収集された少量の固定された一般リプレイサンプルセットが、一般的な能力を保持しつつ、逐次タスク全体の性能を促進するという両方の懸念を解決するのに十分であることを初めて検証した。実際、前者は後者を本質的に促進し得る。制御された実験を通じて、GeReフレームワーク下でのTMと、バニララベルフィッティング、KLダイバージェンスによるロジット模倣、L1/L2損失による特徴模倣といった異なるリプレイ戦略を体系的に比較した。結果は、TMが一貫して性能を向上させ、より優れたロバスト性を示すことを実証している。我々の研究は、将来のLLMの効率的なリプレイへの道を開くものである。コードとデータはhttps://github.com/Qznan/GeReで公開されている。
English
The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usual pretraining texts for efficient anti-forgetting. Beyond revisiting the most prevalent replay-based practices under GeRe, we further leverage neural states to introduce a enhanced activation states constrained optimization method using threshold-based margin (TM) loss, which maintains activation state consistency during replay learning. We are the first to validate that a small, fixed set of pre-collected general replay samples is sufficient to resolve both concerns--retaining general capabilities while promoting overall performance across sequential tasks. Indeed, the former can inherently facilitate the latter. Through controlled experiments, we systematically compare TM with different replay strategies under the GeRe framework, including vanilla label fitting, logit imitation via KL divergence and feature imitation via L1/L2 losses. Results demonstrate that TM consistently improves performance and exhibits better robustness. Our work paves the way for efficient replay of LLMs for the future. Our code and data are available at https://github.com/Qznan/GeRe.
PDF22August 13, 2025