신중한 가중치 감쇠
Cautious Weight Decay
October 14, 2025
저자: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
초록
우리는 Cautious Weight Decay(CWD)를 소개한다. 이는 옵티마이저에 독립적인 한 줄의 수정으로, 옵티마이저 업데이트와 부호가 일치하는 파라미터 좌표에만 가중치 감쇠를 적용한다. 암묵적으로 정규화되거나 제약된 목적 함수를 최적화하는 표준 디커플드 감쇠와 달리, CWD는 원래의 손실 함수를 보존하며 이중 수준 해석을 허용한다: 이는 정지 매니폴드에 도달했을 때 슬라이딩 모드 동작을 유도하여, 수정되지 않은 목적 함수의 지역적 파레토 최적 정지점을 탐색할 수 있게 한다. 실제로 CWD는 AdamW, Lion, Muon과 같은 옵티마이저에 즉시 적용 가능하며, 새로운 하이퍼파라미터나 추가 튜닝이 필요하지 않다. 언어 모델 사전 학습 및 ImageNet 분류에서 CWD는 수백만에서 수십억 개의 파라미터 규모에서 최종 손실과 정확도를 지속적으로 개선한다.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.