가중치 감쇠가 언어 모델의 가소성을 향상시킨다
Weight Decay Improves Language Model Plasticity
February 11, 2026
저자: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI
초록
대규모 언어 모델(LLM) 개발의 주류 패러다임은 기본 모델을 사전 학습한 후 성능 및 모델 행동 향상을 위한 추가 학습을 수행하는 것이다. 그러나 하이퍼파라미터 최적화와 스케일링 법칙에 대한 연구는 주로 기본 모델의 검증 손실 관점에서 이루어져 하류 작업 적응 가능성을 간과해왔다. 본 연구에서는 사전 학습을 모델 가소성, 즉 기본 모델이 미세 조정을 통해 하류 작업에 성공적으로 적응하는 능력의 관점에서 분석한다. 우리는 사전 학습 과정의 핵심 정규화 매개변수인 가중치 감쇠의 역할에 주목한다. 체계적인 실험을 통해 더 큰 가중치 감쇠 값으로 학습된 모델이 더 높은 가소성을 보여, 하류 작업에서 미세 조정 시 더 큰 성능 향상을 나타낸다는 것을 입증한다. 이러한 현상은 사전 학습 후 성능이 낮게 나타난 기본 모델이 미세 조정 후에는 더 우수한 성능을 발휘할 수 있는 반직관적 트레이드오프를 초래할 수 있다. 가중치 감쇠가 모델 행동에 미치는 기제적 영향을 추가 분석한 결과, 이는 선형 분리 가능한 표현을 촉진하고 어텐션 행렬을 정규화하며 훈련 데이터에 대한 과적합을 감소시키는 것으로 나타났다. 결론적으로 본 연구는 교차 엔트로피 손실 이상의 평가 지표를 하이퍼파라미터 최적화에 활용하는 중요성을 입증하며, 단일 최적화 하이퍼파라미터가 모델 행동을 형성하는 다면적 역할을 규명한다.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.