SPARKLING: Bilanciamento tra Conservazione del Segnale e Rottura della Simmetria per l'Apprendimento Progressivo in Ampiezza

Abstract

L'Apprendimento Progressivo (PL) riduce il sovraccarico computazionale del pre-addestramento aumentando gradualmente la scala del modello. Sebbene i lavori precedenti abbiano ampiamente esplorato l'espansione in profondità, l'espansione in ampiezza rimane notevolmente poco studiata, con i pochi metodi esistenti limitati alle fasi iniziali dell'addestramento. Tuttavia, espandere l'ampiezza durante la fase intermedia è essenziale per massimizzare il risparmio computazionale, ma rimane una sfida formidabile a causa di gravi instabilità nell'addestramento. Empiricamente, dimostriamo che una semplice inizializzazione in questa fase altera le statistiche delle attivazioni, innescando picchi di perdita, mentre l'inizializzazione basata sulla copia introduce una simmetria del gradiente che ostacola la diversità delle feature. Per affrontare questi problemi, proponiamo SPARKLING (bilanciamento della {P}reservazione del {S}egnale e {R}ottura della simmetria per l'Apprendimento {L} progressivo in ampiezza), un nuovo framework per l'espansione in ampiezza nella fase intermedia. Il nostro metodo raggiunge la preservazione del segnale tramite la consistenza della scala RMS, stabilizzando le statistiche delle attivazioni durante l'espansione. La rottura della simmetria è garantita attraverso un reset asimmetrico dello stato dell'ottimizzatore e un nuovo riscaldamento del tasso di apprendimento. Esperimenti estesi su modelli Mixture-of-Experts (MoE) dimostrano che, su molteplici assi di ampiezza e famiglie di ottimizzatori, SPARKLING supera costantemente l'addestramento da zero e riduce il costo dell'addestramento fino al 35% sotto un'espansione di ampiezza di 2 volte.

English

Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.

SPARKLING: Bilanciamento tra Conservazione del Segnale e Rottura della Simmetria per l'Apprendimento Progressivo in Ampiezza

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Abstract

Support