GPAS: Accelerazione della Convergenza nel Pretraining di LLM tramite Scalatura delle Attivazioni a Conservazione del Gradiente

Abstract

I moderni modelli linguistici di grandi dimensioni, come le serie LLaMA, Qwen e DeepSeek, adottano prevalentemente l'architettura Transformer con Pre-LayerNorm (Pre-LN). Sebbene sia stabile durante il pre-addestramento e scalabile a dimensioni di modello elevate, Pre-LN soffre di una crescita esponenziale della varianza delle attivazioni attraverso i livelli, causando la dominanza del percorso residuo rispetto alle uscite dei sottolivelli e limitando la capacità di apprendimento degli strati più profondi. Per mitigare questo problema, proponiamo il Gradient-Preserving Activation Scaling (GPAS), una tecnica semplice che può essere utilizzata in combinazione con approcci esistenti. GPAS funziona ridimensionando le attivazioni intermedie mantenendo inalterati i loro gradienti. Ciò preserva intatte le informazioni nelle attivazioni ed evita il problema della scomparsa del gradiente associato alla riduzione del gradiente. Esperimenti estesi su varie dimensioni di modello, da 71M a 1B, dimostrano che GPAS ottiene miglioramenti di prestazioni consistenti. Oltre a potenziare i Transformer con Pre-LN, GPAS mostra anche promettenti miglioramenti in architetture alternative come Sandwich-LN e DeepNorm, dimostrando la sua versatilità e il potenziale per migliorare le dinamiche di addestramento in un'ampia gamma di contesti.

English

Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series, predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While being stable during pretraining and scalable to large model sizes, Pre-LN suffers from an exponential growth in activation variance across layers, causing the residual path to dominate over sub-layer outputs and limiting the learning capacity of deeper layers. To mitigate this issue, we propose Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be used in combination with existing approaches. GPAS works by scaling down the intermediate activations while keeping their gradients unchanged. This leaves information in the activations intact, and avoids the gradient vanishing problem associated with gradient downscaling. Extensive experiments across various model sizes from 71M to 1B show that GPAS achieves consistent performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows promise in improving alternative architectures such as Sandwich-LN and DeepNorm, demonstrating its versatility and potential for improving training dynamics in a wide range of settings.

GPAS: Accelerazione della Convergenza nel Pretraining di LLM tramite Scalatura delle Attivazioni a Conservazione del Gradiente

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

Abstract

Support