SPARKLING: 幅プログレッシブ学習における信号保存と対称性破りのバランス化
SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning
February 2, 2026
著者: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI
要旨
プログレッシブラーニング(PL)は、モデル規模を段階的に拡大することで事前学習の計算コストを削減する手法である。従来の研究では深度拡張が広く検討されてきた一方、幅拡張に関する研究は著しく不足しており、既存の数少ない手法も訓練の初期段階に限定されていた。しかし、計算効率の最大化には中盤段階での幅拡張が不可欠であるものの、深刻な訓練不安定性により未だに大きな課題となっている。実証研究により、この段階での単純な初期化は活性化統計量を乱し損失スパイクを引き起こす一方、コピー型初期化は勾配対称性を導入し特徴多様性を阻害することが明らかとなった。これらの問題を解決するため、我々は中盤幅拡張のための新規フレームワークSPARKLING(バランシング・シグナル保存と対称性打破による幅プログレッシブ学習)を提案する。本手法はRMSスケール一貫性による信号保存を実現し、拡張時の活性化統計量を安定化する。非対称なオプティマイザ状態リセットと学習率再ウォームアップにより、対称性打破を保証する。Mixture-of-Experts(MoE)モデルを用いた大規模実験により、複数の幅拡張軸とオプティマイザファミリーにわたり、SPARKLINGがスクラッチからの訓練を一貫して上回り、2倍の幅拡張条件下で訓練コストを最大35%削減できることを実証した。
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.