ChatPaper.aiChatPaper

SPARKLING: Сохранение сигнала и нарушение симметрии в процессе прогрессивного наращивания ширины сети

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

February 2, 2026
Авторы: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI

Аннотация

Прогрессивное обучение (Progressive Learning, PL) снижает вычислительные затраты на предварительное обучение за счёт постепенного увеличения масштаба модели. В то время как предыдущие работы широко исследовали расширение по глубине, расширение по ширине остаётся значительно менее изученным, а немногочисленные существующие методы ограничиваются ранними стадиями обучения. Однако расширение ширины на средней стадии критически важно для максимизации вычислительной экономии, но остаётся сложной проблемой из-за серьёзной нестабильности обучения. Эмпирически мы показываем, что наивная инициализация на этом этапе нарушает статистику активаций, вызывая скачки потерь, в то время как инициализация копированием порождает симметрию градиентов, которая препятствует разнообразию признаков. Для решения этих проблем мы предлагаем SPARKLING (балансировка {S}охранения сигнала {A}нд разрыва симметрии{R} для {K}обучения с прогрессивным увеличением ширины{ING}) — новую структуру для расширения ширины на средней стадии. Наш метод обеспечивает сохранение сигнала через согласованность RMS-масштаба, стабилизируя статистику активаций при расширении. Разрыв симметрии гарантируется за счёт асимметричного сброса состояния оптимизатора и повторного разогрева скорости обучения. Масштабные эксперименты на моделях Mixture-of-Experts (MoE) демонстрируют, что при различных осях расширения ширины и семействах оптимизаторов SPARKLING стабильно превосходит обучение с нуля и снижает стоимость обучения до 35% при двукратном расширении ширины.
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.
PDF442February 7, 2026