Снижение веса улучшает пластичность языковых моделей
Weight Decay Improves Language Model Plasticity
February 11, 2026
Авторы: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI
Аннотация
Преобладающая парадигма в разработке больших языковых моделей (LLM) предполагает предварительное обучение базовой модели с последующей дообучением для улучшения производительности и поведения модели. Однако оптимизация гиперпараметров и законы масштабирования изучались преимущественно с точки зрения валидационной потери базовой модели, игнорируя адаптивность к последующим задачам. В данной работе мы исследуем предварительное обучение с точки зрения пластичности модели, то есть способности базовой модели успешно адаптироваться к последующим задачам посредством тонкой настройки. Мы сосредотачиваемся на роли decay-регуляризации (снижения весов) — ключевого параметра регуляризации во время предварительного обучения. В ходе систематических экспериментов мы показываем, что модели, обученные с большими значениями decay-регуляризации, обладают большей пластичностью, то есть демонстрируют большее улучшение производительности при тонкой настройке на последующих задачах. Это явление может приводить к контринтуитивным компромиссам, когда базовые модели с худшей производительностью после предварительного обучения могут показывать лучшие результаты после тонкой настройки. Дальнейшее исследование механистических эффектов decay-регуляризации на поведение модели показывает, что она способствует формированию линейно разделимых представлений, регулирует матрицы внимания и снижает переобучение на обучающих данных. В заключение, данная работа демонстрирует важность использования метрик оценки, выходящих за рамки перекрёстной энтропии, для оптимизации гиперпараметров, и проливает свет на многогранную роль, которую играет отдельный гиперпараметр оптимизации в формировании поведения модели.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.