SPARKLING : Équilibrage entre la préservation du signal et la rupture de symétrie pour un apprentissage progressif en largeur
SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning
February 2, 2026
papers.authors: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI
papers.abstract
L'apprentissage progressif (AP) réduit la surcharge computationnelle du pré-entraînement en augmentant progressivement l'échelle du modèle. Si les travaux antérieurs ont largement exploré l'expansion en profondeur, l'expansion en largeur reste considérablement sous-étudiée, les rares méthodes existantes étant limitées aux premières phases de l'entraînement. Pourtant, l'expansion en largeur en phase intermédiaire est essentielle pour maximiser les économies computationnelles, mais elle reste un défi de taille en raison de sévères instabilités d'entraînement. Empiriquement, nous montrons qu'une initialisation naïve à ce stade perturbe les statistiques d'activation, déclenchant des pics de loss, tandis qu'une initialisation par copie introduit une symétrie des gradients qui entrave la diversité des caractéristiques. Pour résoudre ces problèmes, nous proposons SPARKLING (équilibrage de la {P}reservation du {S}ignal et de la {R}upture de symétrie pour l'apprentissage {L}argeur-{PROG}ressif), un nouveau cadre pour l'expansion en largeur en phase intermédiaire. Notre méthode préserve le signal via la cohérence d'échelle RMS, stabilisant les statistiques d'activation lors de l'expansion. La rupture de symétrie est assurée par une réinitialisation asymétrique de l'état de l'optimiseur et un ré-échauffement du taux d'apprentissage. Des expériences approfondies sur des modèles Mixture-of-Experts (MoE) démontrent que, sur de multiples axes de largeur et familles d'optimiseurs, SPARKLING surpasse systématiquement l'entraînement from scratch et réduit le coût d'entraînement jusqu'à 35 % pour une expansion de largeur par 2.
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.