ChatPaper.aiChatPaper

El Decaimiento de Peso Mejora la Plasticidad de los Modelos de Lenguaje

Weight Decay Improves Language Model Plasticity

February 11, 2026
Autores: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI

Resumen

El paradigma predominante en el desarrollo de modelos de lenguaje grandes (LLM) consiste en preentrenar un modelo base y luego realizar entrenamiento adicional para mejorar el rendimiento y el comportamiento del modelo. Sin embargo, la optimización de hiperparámetros y las leyes de escalado se han estudiado principalmente desde la perspectiva de la pérdida de validación del modelo base, ignorando la adaptabilidad a tareas posteriores. En este trabajo, estudiamos el preentrenamiento desde la perspectiva de la plasticidad del modelo, es decir, la capacidad del modelo base para adaptarse exitosamente a tareas posteriores mediante ajuste fino. Nos centramos en el papel del *weight decay* (decaimiento de pesos), un parámetro de regularización clave durante el preentrenamiento. Mediante experimentos sistemáticos, demostramos que los modelos entrenados con valores más altos de *weight decay* son más plásticos, lo que significa que muestran mayores ganancias de rendimiento cuando se ajustan finamente en tareas posteriores. Este fenómeno puede dar lugar a compensaciones contraintuitivas, donde modelos base con peor rendimiento tras el preentrenamiento pueden obtener mejores resultados después del ajuste fino. Una investigación más profunda de los efectos mecanicistas del *weight decay* en el comportamiento del modelo revela que fomenta representaciones linealmente separables, regulariza las matrices de atención y reduce el sobreajuste en los datos de entrenamiento. En conclusión, este trabajo demuestra la importancia de utilizar métricas de evaluación más allá de la pérdida de entropía cruzada para la optimización de hiperparámetros y arroja luz sobre el papel multifacético que un único hiperparámetro de optimización desempeña en la configuración del comportamiento del modelo.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.
PDF11February 13, 2026