大規模言語モデルの対象言語適応における破滅的忘れの軽減:ソースシールド更新によるアプローチ
Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates
December 4, 2025
著者: Atsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras
cs.AI
要旨
命令実行型大規模言語モデル(LLM)の言語的多様性の拡大は、世界的なアクセシビリティにとって重要であるが、高価な専門的な対象言語ラベル付きデータへの依存や、適応時の破滅的忘れ(catastrophic forgetting)によって妨げられることが多い。本研究では、現実的な低リソース制約、すなわちラベルなしの対象言語データのみを用いて命令実行LLMを適応させるという条件下でこの課題に取り組む。我々は、ソース知識を能動的に保持する選択的パラメータ更新戦略であるSource-Shielded Updates(SSU)を提案する。SSUは、少量のソースデータとパラメータ重要度スコアリング手法を用いて、ソース能力維持に重要なパラメータを特定する。その後、カラム単位の凍結戦略を適用し、適応前にこれらのパラメータを保護する。類型論的に多様な5言語および7B、13Bモデルを用いた実験により、SSUが破滅的忘れを効果的に軽減することを実証する。SSUは、単一言語ソースタスクにおける性能劣化を、平均で7Bモデルでは3.4%、13Bモデルでは2.8%に抑え、これは完全微調整による20.3%、22.3%の劣化とは対照的である。またSSUは、対象言語での性能においても完全微調整と非常に競合する結果を示し、7Bモデルでは全てのベンチマークで、13Bモデルでは大半のベンチマークで完全微調整を上回った。
English
Expanding the linguistic diversity of instruct large language models (LLMs) is crucial for global accessibility but is often hindered by the reliance on costly specialized target language labeled data and catastrophic forgetting during adaptation. We tackle this challenge under a realistic, low-resource constraint: adapting instruct LLMs using only unlabeled target language data. We introduce Source-Shielded Updates (SSU), a selective parameter update strategy that proactively preserves source knowledge. Using a small set of source data and a parameter importance scoring method, SSU identifies parameters critical to maintaining source abilities. It then applies a column-wise freezing strategy to protect these parameters before adaptation. Experiments across five typologically diverse languages and 7B and 13B models demonstrate that SSU successfully mitigates catastrophic forgetting. It reduces performance degradation on monolingual source tasks to just 3.4% (7B) and 2.8% (13B) on average, a stark contrast to the 20.3% and 22.3% from full fine-tuning. SSU also achieves target-language performance highly competitive with full fine-tuning, outperforming it on all benchmarks for 7B models and the majority for 13B models.