Décroissance pondérée prudente

papers.abstract

Nous présentons le Décroissance Pondérée Prudente (CWD), une modification en une ligne, indépendante de l'optimiseur, qui applique la décroissance pondérée uniquement aux coordonnées des paramètres dont les signes correspondent à la mise à jour de l'optimiseur. Contrairement à la décroissance découplée standard, qui optimise implicitement un objectif régularisé ou contraint, le CWD préserve la fonction de perte originale et admet une interprétation bi-niveau : il induit un comportement en mode glissant lors de l'atteinte de la variété stationnaire, lui permettant de rechercher des points stationnaires localement Pareto-optimaux de l'objectif non modifié. En pratique, le CWD est un changement direct pour des optimiseurs tels qu'AdamW, Lion et Muon, ne nécessitant aucun nouvel hyperparamètre ou réglage supplémentaire. Pour le pré-entraînement de modèles de langage et la classification sur ImageNet, le CWD améliore systématiquement la perte finale et la précision à des échelles allant de millions à milliards de paramètres.

English

We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.