ChatPaper.aiChatPaper

Gewichtsabfall verbessert die Plastizität von Sprachmodellen

Weight Decay Improves Language Model Plasticity

February 11, 2026
papers.authors: Tessa Han, Sebastian Bordt, Hanlin Zhang, Sham Kakade
cs.AI

papers.abstract

Das vorherrschende Paradigma in der Entwicklung großer Sprachmodelle (LLM) besteht darin, ein Basismodell vorzutrainieren und anschließend weiteres Training zur Verbesserung der Leistung und des Modellverhaltens durchzuführen. Hyperparameteroptimierung und Skalierungsgesetze wurden jedoch hauptsächlich aus der Perspektive des Validierungsverlusts des Basismodells untersucht, wobei die Downstream-Adaptierbarkeit vernachlässigt wurde. In dieser Arbeit untersuchen wir das Vortraining aus der Perspektive der Modellplastizität, das heißt der Fähigkeit des Basismodells, sich durch Feinabstimmung erfolgreich an Downstream-Aufgaben anzupassen. Wir konzentrieren uns auf die Rolle der Gewichtsabnahme (Weight Decay), eines wichtigen Regularisierungsparameters während des Vortrainings. Durch systematische Experimente zeigen wir, dass Modelle, die mit größeren Werten für die Gewichtsabnahme trainiert wurden, plastischer sind, was bedeutet, dass sie größere Leistungssteigerungen zeigen, wenn sie auf Downstream-Aufgaben feinabgestimmt werden. Dieses Phänomen kann zu kontraintuitiven Kompromissen führen, bei denen Basismodelle, die nach dem Vortraining schlechter abschneiden, nach der Feinabstimmung besser performen können. Eine weitere Untersuchung der mechanistischen Auswirkungen der Gewichtsabnahme auf das Modellverhalten zeigt, dass sie linear separierbare Repräsentationen fördert, Attention-Matrizen regularisiert und Overfitting auf den Trainingsdaten reduziert. Zusammenfassend zeigt diese Arbeit die Bedeutung von Bewertungsmetriken jenseits des Kreuzentropieverlusts für die Hyperparameteroptimierung und beleuchtet die vielschichtige Rolle, die ein einzelner Optimierungshyperparameter bei der Gestaltung des Modellverhaltens spielt.
English
The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.
PDF11February 13, 2026