SPARKLING: Ausgleich zwischen Signalerhaltung und Symmetriebrechung für breitenprogressive Lernverfahren
SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning
February 2, 2026
papers.authors: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI
papers.abstract
Progressives Lernen (PL) reduziert den Rechenaufwand beim Vorab-Training durch schrittweise Vergrößerung des Modellmaßstabs. Während frühere Arbeiten die Erweiterung der Tiefe umfassend untersucht haben, ist die Erweiterung der Breite deutlich weniger erforscht, wobei die wenigen existierenden Methoden auf die frühen Trainingsphasen beschränkt sind. Die Erweiterung der Breite in der mittleren Phase ist jedoch entscheidend, um Recheneinsparungen zu maximieren, stellt jedoch aufgrund schwerwiegender Trainingsinstabilitäten eine enorme Herausforderung dar. Empirisch zeigen wir, dass eine naive Initialisierung in dieser Phase die Aktivierungsstatistik stört und Verlustspitzen auslöst, während eine kopierbasierte Initialisierung Gradientensymmetrie einführt, die die Merkmalsvielfalt beeinträchtigt. Um diese Probleme zu lösen, schlagen wir SPARKLING (Abstimmung von {S}ignalerhaltung u{A}nd symmet{R}iebrechung für die breitenprogressive{L}ern{ING}) vor, ein neuartiges Framework für die Breitenerweiterung in der mittleren Phase. Unsere Methode erreicht Signalerhaltung durch RMS-Skalenkonsistenz, was die Aktivierungsstatistik während der Erweiterung stabilisiert. Die Symmetrieunterbrechung wird durch asymmetrische Zurücksetzung des Optimiererzustands und erneutes Aufwärmen der Lernrate sichergestellt. Umfangreiche Experimente mit Mixture-of-Experts (MoE)-Modellen zeigen, dass SPARKLING über mehrere Breitenachsen und Optimiererfamilien hinweg konsistent besser abschneidet als das Training von Grund auf und die Trainingskosten bei einer 2-fachen Breitenerweiterung um bis zu 35 % senkt.
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.