SPARKLING: Balanceren tussen Signaalbehoud en Symmetriebreking voor Breedte-Progressief Leren

Samenvatting

Progressief Leren (PL) vermindert de computationele overhead van voorafgaande training door de modelschaal geleidelijk te vergroten. Hoewel eerder onderzoek uitgebreid de uitbreiding in diepte heeft onderzocht, blijft uitbreiding in breedte aanzienlijk onderbestudeerd, waarbij de weinige bestaande methoden beperkt zijn tot de vroege trainingsfasen. Het uitbreiden van de breedte tijdens de middenfase is echter essentieel om computationele besparingen te maximaliseren, maar blijft een formidabele uitdaging vanwege ernstige trainingsinstabiliteiten. Empirisch tonen we aan dat naïeve initialisatie in deze fase de activatiewaarden verstoort, wat leidt tot verliespieken, terwijl kopie-gebaseerde initialisatie gradiëntsymmetrie introduceert die de featurediversiteit belemmert. Om deze problemen aan te pakken, stellen we SPARKLING voor (een balans tussen {S}ignaalbehoud {A}nd symmet{R}ie-doorbreking {K} voor breedte-progressief {L}er{EN}), een nieuw raamwerk voor breedte-uitbreiding in de middenfase. Onze methode bereikt signaalbehoud via RMS-schaalconsistentie, waardoor de activatiewaarden tijdens de uitbreiding worden gestabiliseerd. Symmetrie-doorbreking wordt gegarandeerd door asymmetrische reset van de optimizerstatus en her-opwarming van het leertempo. Uitgebreide experimenten met Mixture-of-Experts (MoE)-modellen tonen aan dat SPARKLING, over meerdere breedte-assen en optimizerfamilies heen, consistent beter presteert dan training vanaf nul en de trainingskosten met tot 35% reduceert bij een 2x breedte-uitbreiding.

English

Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.

SPARKLING: Balanceren tussen Signaalbehoud en Symmetriebreking voor Breedte-Progressief Leren

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Samenvatting

Support