Décroissance pondérée prudente
Cautious Weight Decay
October 14, 2025
papers.authors: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
papers.abstract
Nous présentons le Décroissance Pondérée Prudente (CWD), une modification en une ligne, indépendante de l'optimiseur, qui applique la décroissance pondérée uniquement aux coordonnées des paramètres dont les signes correspondent à la mise à jour de l'optimiseur. Contrairement à la décroissance découplée standard, qui optimise implicitement un objectif régularisé ou contraint, le CWD préserve la fonction de perte originale et admet une interprétation bi-niveau : il induit un comportement en mode glissant lors de l'atteinte de la variété stationnaire, lui permettant de rechercher des points stationnaires localement Pareto-optimaux de l'objectif non modifié. En pratique, le CWD est un changement direct pour des optimiseurs tels qu'AdamW, Lion et Muon, ne nécessitant aucun nouvel hyperparamètre ou réglage supplémentaire. Pour le pré-entraînement de modèles de langage et la classification sur ImageNet, le CWD améliore systématiquement la perte finale et la précision à des échelles allant de millions à milliards de paramètres.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.