ChatPaper.aiChatPaper

Decadimento Ponderato Cauto

Cautious Weight Decay

October 14, 2025
Autori: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI

Abstract

Introduciamo il Decadimento Ponderato Cauto (CWD), una modifica di una sola riga, indipendente dall'ottimizzatore, che applica il decadimento dei pesi solo alle coordinate dei parametri i cui segni sono allineati con l'aggiornamento dell'ottimizzatore. A differenza del decadimento disaccoppiato standard, che ottimizza implicitamente un obiettivo regolarizzato o vincolato, il CWD preserva la funzione di perdita originale e ammette un'interpretazione bilevel: induce un comportamento a scorrimento (sliding-mode) al raggiungimento della varietà stazionaria, consentendo di cercare punti stazionari localmente Pareto-ottimali dell'obiettivo non modificato. Nella pratica, il CWD è una modifica immediata per ottimizzatori come AdamW, Lion e Muon, senza richiedere nuovi iperparametri o ulteriori regolazioni. Per il pre-addestramento di modelli linguistici e la classificazione su ImageNet, il CWD migliora costantemente la perdita finale e l'accuratezza su scale che vanno da milioni a miliardi di parametri.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.
PDF44October 15, 2025