GPAS: Accelerazione della Convergenza nel Pretraining di LLM tramite Scalatura delle Attivazioni a Conservazione del Gradiente
GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling
June 27, 2025
Autori: Tianhao Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang
cs.AI
Abstract
I moderni modelli linguistici di grandi dimensioni, come le serie LLaMA, Qwen e DeepSeek, adottano prevalentemente l'architettura Transformer con Pre-LayerNorm (Pre-LN). Sebbene sia stabile durante il pre-addestramento e scalabile a dimensioni di modello elevate, Pre-LN soffre di una crescita esponenziale della varianza delle attivazioni attraverso i livelli, causando la dominanza del percorso residuo rispetto alle uscite dei sottolivelli e limitando la capacità di apprendimento degli strati più profondi. Per mitigare questo problema, proponiamo il Gradient-Preserving Activation Scaling (GPAS), una tecnica semplice che può essere utilizzata in combinazione con approcci esistenti. GPAS funziona ridimensionando le attivazioni intermedie mantenendo inalterati i loro gradienti. Ciò preserva intatte le informazioni nelle attivazioni ed evita il problema della scomparsa del gradiente associato alla riduzione del gradiente. Esperimenti estesi su varie dimensioni di modello, da 71M a 1B, dimostrano che GPAS ottiene miglioramenti di prestazioni consistenti. Oltre a potenziare i Transformer con Pre-LN, GPAS mostra anche promettenti miglioramenti in architetture alternative come Sandwich-LN e DeepNorm, dimostrando la sua versatilità e il potenziale per migliorare le dinamiche di addestramento in un'ampia gamma di contesti.
English
Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series,
predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While
being stable during pretraining and scalable to large model sizes, Pre-LN
suffers from an exponential growth in activation variance across layers,
causing the residual path to dominate over sub-layer outputs and limiting the
learning capacity of deeper layers. To mitigate this issue, we propose
Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be
used in combination with existing approaches. GPAS works by scaling down the
intermediate activations while keeping their gradients unchanged. This leaves
information in the activations intact, and avoids the gradient vanishing
problem associated with gradient downscaling. Extensive experiments across
various model sizes from 71M to 1B show that GPAS achieves consistent
performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows
promise in improving alternative architectures such as Sandwich-LN and
DeepNorm, demonstrating its versatility and potential for improving training
dynamics in a wide range of settings.