ChatPaper.aiChatPaper

Multiplicadores Aprendibles: Liberando la Escala de las Capas Matriciales en Modelos de Lenguaje

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

January 8, 2026
Autores: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI

Resumen

La aplicación de decaimiento de pesos (WD, por sus siglas en inglés) a las capas matriciales es una práctica estándar en el preentrenamiento de modelos lingüísticos grandes. Trabajos previos sugieren que el ruido del gradiente estocástico induce una expansión de tipo browniano en las matrices de pesos W, cuyo crecimiento es contrarrestado por el WD, lo que conduce a un equilibrio WD-ruido con una determinada norma de pesos ||W||. En este trabajo, consideramos la norma de equilibrio como un artefacto perjudicial del procedimiento de entrenamiento y lo abordamos introduciendo multiplicadores entrenables para aprender la escala óptima. En primer lugar, adjuntamos un multiplicador escalar entrenable a W y confirmamos que la norma de equilibrio WD-ruido es subóptima: la escala aprendida se adapta a los datos y mejora el rendimiento. A continuación, argumentamos que las normas individuales de filas y columnas están igualmente restringidas, y liberamos su escala introduciendo multiplicadores entrenables por fila y por columna. Nuestro método puede verse como una generalización entrenable y más expresiva de los multiplicadores muP. Supera a una línea de base muP bien ajustada, reduce la sobrecarga computacional del ajuste de multiplicadores y plantea cuestiones prácticas como las simetrías en la pasada hacia adelante y el escalado en anchura de los multiplicadores aprendidos. Finalmente, validamos los multiplicadores entrenables con los optimizadores Adam y Muon, donde se observa una mejora en las evaluaciones posteriores que iguala la mejora obtenida al cambiar de Adam a Muon.
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.
PDF281January 10, 2026