ChatPaper.aiChatPaper

慎重な重み減衰

Cautious Weight Decay

October 14, 2025
著者: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI

要旨

本研究では、Cautious Weight Decay(CWD)を提案する。これは、最適化手法に依存しない一行の修正であり、重み減衰を最適化更新の符号と一致するパラメータ座標にのみ適用するものである。標準的な分離型減衰が暗黙的に正則化または制約付き目的関数を最適化するのに対し、CWDは元の損失関数を保持し、二段階解釈を可能にする。具体的には、CWDは定常多様体に到達した際にスライディングモード挙動を誘発し、修正されていない目的関数の局所パレート最適な定常点を探索することを可能にする。実際には、CWDはAdamW、Lion、Muonなどの最適化手法にそのまま適用可能であり、新たなハイパーパラメータや追加のチューニングを必要としない。言語モデルの事前学習およびImageNet分類において、CWDは百万から数十億パラメータ規模において最終的な損失と精度を一貫して向上させることが確認された。
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.
PDF98February 7, 2026