ChatPaper.aiChatPaper

Voorzichtige Gewichtsvermindering

Cautious Weight Decay

October 14, 2025
Auteurs: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI

Samenvatting

We introduceren Cautious Weight Decay (CWD), een eenregelige, optimizer-onafhankelijke aanpassing die gewichtsverval alleen toepast op parametercoördinaten waarvan de tekens overeenkomen met de optimizer-update. In tegenstelling tot standaard ontkoppeld verval, dat impliciet een geregulariseerd of beperkt doel optimaliseert, behoudt CWD het oorspronkelijke verlies en laat het een bilevel-interpretatie toe: het induceert een glijdende-modusgedrag bij het bereiken van het stationaire spruitstuk, waardoor het kan zoeken naar lokaal Pareto-optimale stationaire punten van het ongemodificeerde doel. In de praktijk is CWD een directe wijziging voor optimizers zoals AdamW, Lion en Muon, waarvoor geen nieuwe hyperparameters of extra afstemming nodig is. Voor het vooraf trainen van taalmodelen en ImageNet-classificatie verbetert CWD consistent het uiteindelijke verlies en de nauwkeurigheid op schalen van miljoenen tot miljarden parameters.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.
PDF44October 15, 2025