Decadimento Ponderato Cauto

Abstract

Introduciamo il Decadimento Ponderato Cauto (CWD), una modifica di una sola riga, indipendente dall'ottimizzatore, che applica il decadimento dei pesi solo alle coordinate dei parametri i cui segni sono allineati con l'aggiornamento dell'ottimizzatore. A differenza del decadimento disaccoppiato standard, che ottimizza implicitamente un obiettivo regolarizzato o vincolato, il CWD preserva la funzione di perdita originale e ammette un'interpretazione bilevel: induce un comportamento a scorrimento (sliding-mode) al raggiungimento della varietà stazionaria, consentendo di cercare punti stazionari localmente Pareto-ottimali dell'obiettivo non modificato. Nella pratica, il CWD è una modifica immediata per ottimizzatori come AdamW, Lion e Muon, senza richiedere nuovi iperparametri o ulteriori regolazioni. Per il pre-addestramento di modelli linguistici e la classificazione su ImageNet, il CWD migliora costantemente la perdita finale e l'accuratezza su scale che vanno da milioni a miliardi di parametri.

English

We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.