ChatPaper.aiChatPaper

La décadence des poids améliore la plasticité des modèles de langage

Weight Decay Improves Language Model Plasticity

February 11, 2026
papers.authors: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI

papers.abstract

Le paradigme dominant dans le développement des grands modèles de langage (LLM) consiste à pré-entraîner un modèle de base, puis à effectuer un apprentissage supplémentaire pour améliorer les performances et le comportement du modèle. Cependant, l'optimisation des hyperparamètres et les lois d'échelle ont été étudiées principalement du point de vue de la perte de validation du modèle de base, ignorant l'adaptabilité en aval. Dans ce travail, nous étudions le pré-entraînement sous l'angle de la plasticité du modèle, c'est-à-dire sa capacité à s'adapter avec succès à des tâches en aval via un apprentissage fin. Nous nous concentrons sur le rôle de la décroissance de poids, un paramètre de régularisation clé pendant le pré-entraînement. Par des expériences systématiques, nous montrons que les modèles entraînés avec des valeurs plus élevées de décroissance de poids sont plus plastiques, c'est-à-dire qu'ils présentent des gains de performance plus importants lorsqu'ils sont affinés sur des tâches en aval. Ce phénomène peut conduire à des compromis contre-intuitifs où des modèles de base moins performants après le pré-entraînement peuvent devenir plus performants après l'affinage. Une investigation plus poussée des effets mécanistes de la décroissance de poids sur le comportement du modèle révèle qu'elle encourage les représentations linéairement séparables, régularise les matrices d'attention et réduit le surapprentissage sur les données d'entraînement. En conclusion, ce travail démontre l'importance d'utiliser des métriques d'évaluation au-delà de la perte d'entropie croisée pour l'optimisation des hyperparamètres et met en lumière le rôle multidimensionnel qu'un seul hyperparamètre d'optimisation joue dans la formation du comportement du modèle.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.
PDF11February 13, 2026