Il decadimento del peso migliora la plasticità dei modelli linguistici

Abstract

Il paradigma prevalente nello sviluppo dei Large Language Model (LLM) consiste nel pre-addestrare un modello base, per poi eseguire un ulteriore training per migliorarne le prestazioni e il comportamento. Tuttavia, l'ottimizzazione degli iperparametri e le leggi di scala sono state studiate principalmente dalla prospettiva della loss di validazione del modello base, ignorando l'adattabilità a compiti downstream. In questo lavoro, studiamo il pre-addestramento dalla prospettiva della plasticità del modello, ovvero la sua capacità di adattarsi con successo a compiti downstream attraverso il fine-tuning. Ci concentriamo sul ruolo del *weight decay*, un parametro chiave di regolarizzazione durante il pre-addestramento. Attraverso esperimenti sistematici, dimostriamo che i modelli addestrati con valori di *weight decay* più elevati sono più plastici, il che significa che mostrano maggiori miglioramenti prestazionali quando sottoposti a fine-tuning su compiti downstream. Questo fenomeno può portare a compromessi controintuitivi, per cui modelli base con prestazioni peggiori dopo il pre-addestramento possono performare meglio dopo il fine-tuning. Un'ulteriore investigazione degli effetti meccanicistici del *weight decay* sul comportamento del modello rivela che esso favorisce rappresentazioni linearmente separabili, regolarizza le matrici di attenzione e riduce l'overfitting sui dati di training. In conclusione, questo lavoro dimostra l'importanza di utilizzare metriche di valutazione oltre alla loss di entropia incrociata per l'ottimizzazione degli iperparametri e getta luce sul ruolo multiforme che un singolo iperparametro di ottimizzazione svolge nel modellare il comportamento del modello.

English

The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.

Il decadimento del peso migliora la plasticità dei modelli linguistici

Weight Decay Improves Language Model Plasticity

Abstract

Support