ChatPaper.aiChatPaper

학습 가능한 승수: 언어 모델 행렬 계층의 스케일 자유화

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

January 8, 2026
저자: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI

초록

가중치 감쇠(WD)를 행렬 계층에 적용하는 것은 대규모 언어 모델 사전 학습에서 표준적인 방법입니다. 선행 연구에 따르면 확률적 경사하강법의 노이즈가 가중치 행렬 W에 브라운 운동과 유사한 확산을 유발하며, 이 확산은 WD에 의해 상쇄되어 특정 가중치 노름 ||W||를 갖는 WD-노이즈 평형 상태에 도달하게 됩니다. 본 연구에서는 이러한 평형 상태의 노름을 훈련 과정에서 발생하는 유해한 부산물로 간주하고, 학습 가능한 승수를 도입하여 최적의 스케일을 학습하는 방식으로 이 문제를 해결합니다. 먼저 W에 학습 가능한 스칼라 승수를 부착하여 WD-노이즈 평형 노름이 최적이 아님을 확인했습니다: 학습된 스케일은 데이터에 맞게 조정되며 성능을 향상시킵니다. 다음으로 개별 행과 열의 노름도 유사하게 제약을 받는다고 주장하며, 학습 가능한 행별 및 열별 승수를 도입하여 그 스케일을 자유롭게 합니다. 우리의 방법은 학습 가능하고 더 표현력이 높은 muP 승수의 일반화로 볼 수 있습니다. 이 방법은 잘 조정된 muP 기준선을 능가하며, 승수 튜닝의 계산 오버헤드를 줄이고, 순전파 대칭성 및 학습된 승수의 너비 스케일링과 같은 실용적인 문제를 제기합니다. 마지막으로, Adam과 Muon 옵티마이저 모두에서 학습 가능한 승수를 검증하였으며, 여기서는 Adam에서 Muon으로 전환할 때의 향상과 일치하는 하류 평가에서의 개선을 보여줍니다.
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
PDF281January 10, 2026