O Decaimento de Peso Melhora a Plasticidade dos Modelos de Linguagem

Resumo

O paradigma predominante no desenvolvimento de grandes modelos de linguagem (LLMs) envolve o pré-treinamento de um modelo base, seguido por treinamento adicional para melhorar o desempenho e o comportamento do modelo. No entanto, a otimização de hiperparâmetros e as leis de escala têm sido estudadas principalmente a partir da perspectiva da perda de validação do modelo base, ignorando a adaptabilidade a tarefas subsequentes. Neste trabalho, estudamos o pré-treinamento a partir da perspectiva da plasticidade do modelo, ou seja, a capacidade do modelo base de se adaptar com sucesso a tarefas subsequentes por meio do ajuste fino. Focamos no papel do *weight decay* (decadência de pesos), um parâmetro de regularização fundamental durante o pré-treinamento. Por meio de experimentos sistemáticos, mostramos que modelos treinados com valores maiores de *weight decay* são mais plásticos, o que significa que exibem ganhos de desempenho maiores quando ajustados em tarefas subsequentes. Este fenômeno pode levar a trade-offs contra-intuitivos, nos quais modelos base com pior desempenho após o pré-treinamento podem ter um desempenho superior após o ajuste fino. Uma investigação mais aprofundada dos efeitos mecanicistas do *weight decay* no comportamento do modelo revela que ele incentiva representações linearmente separáveis, regulariza as matrizes de atenção e reduz o sobreajuste nos dados de treinamento. Em conclusão, este trabalho demonstra a importância de usar métricas de avaliação além da perda de entropia cruzada para a otimização de hiperparâmetros e lança luz sobre o papel multifacetado que um único hiperparâmetro de otimização desempenha na moldagem do comportamento do modelo.

English

The prevailing paradigm in large language model (LLM) development is to pretrain a base model, then perform further training to improve performance and model behavior. However, hyperparameter optimization and scaling laws have been studied primarily from the perspective of the base model's validation loss, ignoring downstream adaptability. In this work, we study pretraining from the perspective of model plasticity, that is, the ability of the base model to successfully adapt to downstream tasks through fine-tuning. We focus on the role of weight decay, a key regularization parameter during pretraining. Through systematic experiments, we show that models trained with larger weight decay values are more plastic, meaning they show larger performance gains when fine-tuned on downstream tasks. This phenomenon can lead to counterintuitive trade-offs where base models that perform worse after pretraining can perform better after fine-tuning. Further investigation of weight decay's mechanistic effects on model behavior reveals that it encourages linearly separable representations, regularizes attention matrices, and reduces overfitting on the training data. In conclusion, this work demonstrates the importance of using evaluation metrics beyond cross-entropy loss for hyperparameter optimization and casts light on the multifaceted role of that a single optimization hyperparameter plays in shaping model behavior.

O Decaimento de Peso Melhora a Plasticidade dos Modelos de Linguagem

Weight Decay Improves Language Model Plasticity

Resumo

Support