Обучаемые множители: освобождение масштаба матричных слоев языковых моделей
Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers
January 8, 2026
Авторы: Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, Dhia Eddine Rhaiem, Younes Belkada, Hakim Hacid
cs.AI
Аннотация
Применение затухания весов (weight decay, WD) к матричным слоям является стандартной практикой при предварительном обучении больших языковых моделей. Предыдущие исследования показывают, что шум стохастического градиента вызывает броуновское расширение матриц весов W, рост которого подавляется WD, что приводит к равновесию между WD и шумом с определенной нормой весов ||W||. В данной работе мы рассматриваем равновесную норму как вредный артефакт процедуры обучения и устраняем его путем введения обучаемых множителей для изучения оптимального масштаба. Сначала мы присоединяем к W обучаемый скалярный множитель и подтверждаем, что равновесная норма WD-шума является субоптимальной: изучаемый масштаб адаптируется к данным и улучшает производительность. Затем мы утверждаем, что нормы отдельных строк и столбцов аналогично ограничены, и освобождаем их масштаб, вводя обучаемые множители для каждой строки и каждого столбца. Наш метод можно рассматривать как обобщение множителей muP с обучаемостью и большей выразительностью. Он превосходит хорошо настроенный muP-базис, сокращает вычислительные затраты на настройку множителей и поднимает практические вопросы, такие как симметрии прямого прохода и масштабирование изучаемых множителей по ширине сети. Наконец, мы проверяем обучаемые множители с оптимизаторами Adam и Muon, где они демонстрируют улучшение в последующих оценках, сопоставимое с улучшением от перехода с Adam на Muon.
English
Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.