ChatPaper.aiChatPaper

Vorsichtige Gewichtsabnahme

Cautious Weight Decay

October 14, 2025
papers.authors: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI

papers.abstract

Wir stellen Cautious Weight Decay (CWD) vor, eine einzeilige, optimiererunabhängige Modifikation, die Gewichtsverfall nur auf Parameterkoordinaten anwendet, deren Vorzeichen mit dem Optimierer-Update übereinstimmen. Im Gegensatz zum standardmäßigen entkoppelten Verfall, der implizit ein regularisiertes oder beschränktes Ziel optimiert, bewahrt CWD den ursprünglichen Verlust und lässt eine zweistufige Interpretation zu: Es induziert ein Gleitmodusverhalten beim Erreichen der stationären Mannigfaltigkeit, wodurch es ermöglicht wird, lokal Pareto-optimale stationäre Punkte des unveränderten Ziels zu suchen. In der Praxis ist CWD eine direkte Änderung für Optimierer wie AdamW, Lion und Muon, die keine neuen Hyperparameter oder zusätzliche Anpassungen erfordert. Für das Vortraining von Sprachmodellen und die ImageNet-Klassifizierung verbessert CWD kontinuierlich den endgültigen Verlust und die Genauigkeit bei Millionen- bis Milliarden-Parameter-Skalen.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.
PDF98February 7, 2026