Decaimiento de Peso Cauteloso
Cautious Weight Decay
October 14, 2025
Autores: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu
cs.AI
Resumen
Presentamos el Decaimiento de Pesos Cauteloso (CWD, por sus siglas en inglés), una modificación de una sola línea, independiente del optimizador, que aplica el decaimiento de pesos únicamente a las coordenadas de los parámetros cuyos signos coinciden con la actualización del optimizador. A diferencia del decaimiento desacoplado estándar, que optimiza implícitamente un objetivo regularizado o restringido, el CWD preserva la función de pérdida original y admite una interpretación de dos niveles: induce un comportamiento de modo deslizante al alcanzar la variedad estacionaria, permitiéndole buscar puntos estacionarios localmente Pareto-óptimos del objetivo no modificado. En la práctica, el CWD es un cambio directo para optimizadores como AdamW, Lion y Muon, sin requerir nuevos hiperparámetros o ajustes adicionales. Para el preentrenamiento de modelos de lenguaje y la clasificación en ImageNet, el CWD mejora consistentemente la pérdida final y la precisión en escalas de millones a miles de millones de parámetros.
English
We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic
modification that applies weight decay only to parameter coordinates whose
signs align with the optimizer update. Unlike standard decoupled decay, which
implicitly optimizes a regularized or constrained objective, CWD preserves the
original loss and admits a bilevel interpretation: it induces sliding-mode
behavior upon reaching the stationary manifold, allowing it to search for
locally Pareto-optimal stationary points of the unmodified objective. In
practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon,
requiring no new hyperparameters or additional tuning. For language model
pre-training and ImageNet classification, CWD consistently improves final loss
and accuracy at million- to billion-parameter scales.