SPARKLING: Equilibrando a Preservação de Sinal e a Quebra de Simetria para Aprendizado Progressivo em Largura

Resumo

A Aprendizagem Progressiva (AP) reduz a sobrecarga computacional de pré-treinamento ao aumentar gradualmente a escala do modelo. Embora trabalhos anteriores tenham explorado extensivamente a expansão em profundidade, a expansão em largura permanece significativamente menos estudada, com os poucos métodos existentes limitados às fases iniciais do treinamento. No entanto, expandir a largura durante a fase intermediária é essencial para maximizar a economia computacional, mas continua sendo um desafio formidável devido a severas instabilidades de treinamento. Empiricamente, demonstramos que uma inicialização ingênua nesta fase perturba as estatísticas de ativação, desencadeando picos de perda, enquanto a inicialização baseada em cópia introduz simetria de gradiente que prejudica a diversidade de características. Para resolver esses problemas, propomos o SPARKLING (equilibrando a {P}reservação de {S}inal e a quebra de simet{R}ia para a{A}prendizagem {L}arga-{P}rogressiva), uma nova estrutura para expansão de largura em fase intermediária. Nosso método alcança a preservação do sinal via consistência de escala RMS, estabilizando as estatísticas de ativação durante a expansão. A quebra de simetria é garantida através de redefinição assimétrica do estado do otimizador e reaquecimento da taxa de aprendizagem. Experimentos extensos em modelos de Mistura de Especialistas (MoE) demonstram que, em múltiplos eixos de largura e famílias de otimizadores, o SPARKLING supera consistentemente o treinamento a partir do zero e reduz o custo de treinamento em até 35% sob uma expansão de largura de 2 vezes.

English

Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.

SPARKLING: Equilibrando a Preservação de Sinal e a Quebra de Simetria para Aprendizado Progressivo em Largura

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Resumo

Support