Voorzichtige Gewichtsvermindering
Cautious Weight Decay
October 14, 2025
Auteurs: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
Samenvatting
We introduceren Cautious Weight Decay (CWD), een eenregelige, optimizer-onafhankelijke aanpassing die gewichtsverval alleen toepast op parametercoördinaten waarvan de tekens overeenkomen met de optimizer-update. In tegenstelling tot standaard ontkoppeld verval, dat impliciet een geregulariseerd of beperkt doel optimaliseert, behoudt CWD het oorspronkelijke verlies en laat het een bilevel-interpretatie toe: het induceert een glijdende-modusgedrag bij het bereiken van het stationaire spruitstuk, waardoor het kan zoeken naar lokaal Pareto-optimale stationaire punten van het ongemodificeerde doel. In de praktijk is CWD een directe wijziging voor optimizers zoals AdamW, Lion en Muon, waarvoor geen nieuwe hyperparameters of extra afstemming nodig is. Voor het vooraf trainen van taalmodelen en ImageNet-classificatie verbetert CWD consistent het uiteindelijke verlies en de nauwkeurigheid op schalen van miljoenen tot miljarden parameters.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.