Decaimento de Peso Cauteloso
Cautious Weight Decay
October 14, 2025
Autores: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
Resumo
Apresentamos o Decaimento de Peso Cauteloso (CWD, do inglês Cautious Weight Decay), uma modificação de uma linha, independente do otimizador, que aplica o decaimento de peso apenas às coordenadas dos parâmetros cujos sinais estejam alinhados com a atualização do otimizador. Diferente do decaimento desacoplado padrão, que implicitamente otimiza um objetivo regularizado ou restrito, o CWD preserva a função de perda original e admite uma interpretação bilevel: ele induz um comportamento de modo deslizante ao atingir a variedade estacionária, permitindo que ele busque pontos estacionários localmente Pareto-ótimos do objetivo não modificado. Na prática, o CWD é uma alteração direta para otimizadores como AdamW, Lion e Muon, não exigindo novos hiperparâmetros ou ajustes adicionais. Para pré-treinamento de modelos de linguagem e classificação no ImageNet, o CWD melhora consistentemente a perda final e a acurácia em escalas de milhões a bilhões de parâmetros.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.