GPAS: Aceleración de la Convergencia en el Pretrenamiento de LLM mediante Escalado de Activaciones que Preserva el Gradiente

Resumen

Los modelos modernos de lenguaje a gran escala, como las series LLaMA, Qwen y DeepSeek, adoptan predominantemente la arquitectura Transformer con Pre-LayerNorm (Pre-LN). Aunque es estable durante el preentrenamiento y escalable a tamaños de modelo grandes, Pre-LN sufre un crecimiento exponencial en la varianza de las activaciones a través de las capas, lo que hace que la ruta residual domine sobre las salidas de las subcapas y limite la capacidad de aprendizaje de las capas más profundas. Para mitigar este problema, proponemos el Escalado de Activaciones con Preservación de Gradientes (GPAS, por sus siglas en inglés), una técnica simple que puede usarse en combinación con enfoques existentes. GPAS funciona escalando hacia abajo las activaciones intermedias mientras mantiene sus gradientes sin cambios. Esto deja la información en las activaciones intacta y evita el problema de desvanecimiento del gradiente asociado con el escalado descendente de gradientes. Experimentos exhaustivos en varios tamaños de modelo, desde 71M hasta 1B, muestran que GPAS logra mejoras consistentes en el rendimiento. Más allá de mejorar los Transformers con Pre-LN, GPAS también muestra potencial para mejorar arquitecturas alternativas como Sandwich-LN y DeepNorm, demostrando su versatilidad y potencial para optimizar la dinámica de entrenamiento en una amplia gama de configuraciones.

English

Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series, predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While being stable during pretraining and scalable to large model sizes, Pre-LN suffers from an exponential growth in activation variance across layers, causing the residual path to dominate over sub-layer outputs and limiting the learning capacity of deeper layers. To mitigate this issue, we propose Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be used in combination with existing approaches. GPAS works by scaling down the intermediate activations while keeping their gradients unchanged. This leaves information in the activations intact, and avoids the gradient vanishing problem associated with gradient downscaling. Extensive experiments across various model sizes from 71M to 1B show that GPAS achieves consistent performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows promise in improving alternative architectures such as Sandwich-LN and DeepNorm, demonstrating its versatility and potential for improving training dynamics in a wide range of settings.

GPAS: Aceleración de la Convergencia en el Pretrenamiento de LLM mediante Escalado de Activaciones que Preserva el Gradiente

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

Resumen

Support