Weight Decay verbetert de plasticiteit van taalmodel(len).
Weight Decay Improves Language Model Plasticity
February 11, 2026
Auteurs: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI
Samenvatting
Het heersende paradigma in de ontwikkeling van grote taalmmodellen (LLM's) is het vooraf trainen van een basismodel, gevolgd door verdere training om de prestaties en het gedrag van het model te verbeteren. Hyperparameteroptimalisatie en schaalwetten zijn echter voornamelijk bestudeerd vanuit het perspectief van de validatiefout van het basismodel, waarbij de downstream-aanpasbaarheid wordt genegeerd. In dit werk bestuderen we vooraf trainen vanuit het perspectief van modelplasticiteit, dat wil zeggen het vermogen van het basismodel om zich succesvol aan te passen aan downstreamtaken via fine-tuning. We richten ons op de rol van gewichtsverval, een belangrijke regularisatieparameter tijdens de voorafgaande training. Door middel van systematische experimenten tonen we aan dat modellen die met grotere gewichtsvervalwaarden zijn getraind plastischer zijn, wat betekent dat ze grotere prestatieverbeteringen vertonen wanneer ze worden afgestemd op downstreamtaken. Dit fenomeen kan leiden tot contra-intuïtieve afwegingen waarbij basismodellen die slechter presteren na de voorafgaande training, beter kunnen presteren na fine-tuning. Verder onderzoek naar de mechanistische effecten van gewichtsverval op modelgedrag onthult dat het lineair scheidbare representaties bevordert, aandachtmatrices regulariseert en overfitting op de trainingsdata vermindert. Concluderend toont dit werk het belang aan van het gebruik van evaluatiemetrics die verder gaan dan de kruisingsentropiefout voor hyperparameteroptimalisatie, en werpt het licht op de veelzijdige rol die een enkele optimalisatiehyperparameter speelt bij het vormgeven van modelgedrag.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.