重み減衰は言語モデルの可塑性を改善する
Weight Decay Improves Language Model Plasticity
February 11, 2026
著者: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI
要旨
大規模言語モデル(LLM)開発における主流のパラダイムは、ベースモデルを事前学習した後、性能とモデルの振る舞いを改善するための追加学習を実施するというものである。しかし、ハイパーパラメータ最適化やスケーリング則に関する研究は、主にベースモデルの検証損失の観点から行われており、下流タスクへの適応性が無視されてきた。本研究では、モデルの可塑性、すなわちベースモデルがファインチューニングを通じて下流タスクにうまく適応する能力の観点から事前学習を検討する。我々は、事前学習における重要な正則化パラメータであるWeight Decayの役割に焦点を当てる。系統的な実験を通じて、より大きなWeight Decay値で学習されたモデルは可塑性が高く、下流タスクでファインチューニングした際に大きな性能向上を示すことを明らかにする。この現象は、事前学習後の性能が低いベースモデルが、ファインチューニング後にはより優れた性能を発揮するという直感に反するトレードオフを生み出す可能性がある。Weight Decayがモデルの振る舞いに及ぼす機序的影響をさらに調査した結果、それは線形分離可能な表現を促進し、注意行列を正則化し、訓練データへの過学習を軽減することがわかった。結論として、本研究は、ハイパーパラメータ最適化において交差エントロピー損失以外の評価指標を使用することの重要性を実証し、単一の最適化ハイパーパラメータがモデルの振る舞いを形成する上で果たす多面的な役割を明らかにするものである。
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.