Decadimento Ponderato Cauto
Cautious Weight Decay
October 14, 2025
Autori: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
Abstract
Introduciamo il Decadimento Ponderato Cauto (CWD), una modifica di una sola riga, indipendente dall'ottimizzatore, che applica il decadimento dei pesi solo alle coordinate dei parametri i cui segni sono allineati con l'aggiornamento dell'ottimizzatore. A differenza del decadimento disaccoppiato standard, che ottimizza implicitamente un obiettivo regolarizzato o vincolato, il CWD preserva la funzione di perdita originale e ammette un'interpretazione bilevel: induce un comportamento a scorrimento (sliding-mode) al raggiungimento della varietà stazionaria, consentendo di cercare punti stazionari localmente Pareto-ottimali dell'obiettivo non modificato. Nella pratica, il CWD è una modifica immediata per ottimizzatori come AdamW, Lion e Muon, senza richiedere nuovi iperparametri o ulteriori regolazioni. Per il pre-addestramento di modelli linguistici e la classificazione su ImageNet, il CWD migliora costantemente la perdita finale e l'accuratezza su scale che vanno da milioni a miliardi di parametri.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.