ChatPaper.aiChatPaper

SPARKLING: Equilibrio entre la Preservación de Señales y la Ruptura de Simetría para el Aprendizaje de Progresión en Ancho

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

February 2, 2026
Autores: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He
cs.AI

Resumen

El Aprendizaje Progresivo (PL) reduce la sobrecarga computacional del pre-entrenamiento al aumentar gradualmente la escala del modelo. Si bien trabajos previos han explorado extensamente la expansión en profundidad, la expansión en anchura sigue estando significativamente menos estudiada, con los pocos métodos existentes limitados a las etapas iniciales del entrenamiento. Sin embargo, expandir la anchura durante la etapa intermedia es esencial para maximizar el ahorro computacional, pero sigue siendo un desafío formidable debido a graves inestabilidades en el entrenamiento. Empíricamente, demostramos que una inicialización simple en esta etapa altera las estadísticas de las activaciones, provocando picos en la pérdida, mientras que la inicialización por copia introduce una simetría en los gradientes que dificulta la diversidad de características. Para abordar estos problemas, proponemos SPARKLING (equilibrio entre la preservación de la señal y la ruptura de simetría para el aprendizaje progresivo en anchura), un novedoso marco para la expansión de anchura en etapa intermedia. Nuestro método logra la preservación de la señal mediante la consistencia de escala RMS, estabilizando las estadísticas de activación durante la expansión. La ruptura de simetría se garantiza mediante un reinicio asimétrico del estado del optimizador y un nuevo calentamiento de la tasa de aprendizaje. Experimentos exhaustivos en modelos Mixture-of-Experts (MoE) demuestran que, en múltiples ejes de anchura y familias de optimizadores, SPARKLING supera consistentemente al entrenamiento desde cero y reduce el coste de entrenamiento hasta en un 35% bajo una expansión de anchura de 2 veces.
English
Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under 2times width expansion.
PDF442February 7, 2026