ChatPaper.aiChatPaper

SPARKLING: 폭-점진적 학습을 위한 신호 보존과 대칭 깨짐의 균형 맞추기

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

February 2, 2026
저자: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI

초록

점진적 학습(PL)은 모델 규모를 점차적으로 증가시킴으로써 사전 학습의 계산 부담을 줄입니다. 기존 연구에서는 주로 깊이 확장에 초점을 맞춘 반면, 너비 확장은 상대적으로 덜 연구되었으며 기존 소수 방법도 훈련 초기 단계로 제한됩니다. 그러나 훈련 중간 단계에서의 너비 확장은 계산 효율을 극대화하는 데 필수적이지만, 심각한 훈련 불안정성으로 인해 여전히 큰 도전 과제로 남아 있습니다. 실험적으로 볼 때, 이 단계에서의 단순한 초기화는 활성화 통계를 교란시켜 손실 급증을 유발하는 반면, 복사 기반 초기화는 기울기 대칭성을 도입하여 특징 다양성 향상을 저해합니다. 이러한 문제를 해결하기 위해 우리는 중간 단계 너비 확장을 위한 새로운 프레임워크인 SPARKLING(너비 점진적 학습을 위한 신호 보존과 대칭 깨짐의 균형)을 제안합니다. 우리의 방법은 RMS 스케일 일관성을 통해 신호 보존을 달성하여 확장 과정 중 활성화 통계를 안정화합니다. 비대칭적 옵티마이저 상태 재설정과 학습률 재준비를 통해 대칭 깨짐을 보장합니다. MoE(Mixture-of-Experts) 모델에 대한 폭넓은 실험을 통해 다양한 너비 축과 옵티마이저 패밀리에서 SPARKLING이 처음부터 훈련하는 방법보다 consistently 우수한 성능을 보이며, 너비를 2배 확장할 때 훈련 비용을 최대 35%까지 절감함을 입증했습니다.
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.
PDF442February 7, 2026