GPAS: Aceleración de la Convergencia en el Pretrenamiento de LLM mediante Escalado de Activaciones que Preserva el Gradiente
GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling
June 27, 2025
Autores: Tianhao Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang
cs.AI
Resumen
Los modelos modernos de lenguaje a gran escala, como las series LLaMA, Qwen y DeepSeek, adoptan predominantemente la arquitectura Transformer con Pre-LayerNorm (Pre-LN). Aunque es estable durante el preentrenamiento y escalable a tamaños de modelo grandes, Pre-LN sufre un crecimiento exponencial en la varianza de las activaciones a través de las capas, lo que hace que la ruta residual domine sobre las salidas de las subcapas y limite la capacidad de aprendizaje de las capas más profundas. Para mitigar este problema, proponemos el Escalado de Activaciones con Preservación de Gradientes (GPAS, por sus siglas en inglés), una técnica simple que puede usarse en combinación con enfoques existentes. GPAS funciona escalando hacia abajo las activaciones intermedias mientras mantiene sus gradientes sin cambios. Esto deja la información en las activaciones intacta y evita el problema de desvanecimiento del gradiente asociado con el escalado descendente de gradientes. Experimentos exhaustivos en varios tamaños de modelo, desde 71M hasta 1B, muestran que GPAS logra mejoras consistentes en el rendimiento. Más allá de mejorar los Transformers con Pre-LN, GPAS también muestra potencial para mejorar arquitecturas alternativas como Sandwich-LN y DeepNorm, demostrando su versatilidad y potencial para optimizar la dinámica de entrenamiento en una amplia gama de configuraciones.
English
Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series,
predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While
being stable during pretraining and scalable to large model sizes, Pre-LN
suffers from an exponential growth in activation variance across layers,
causing the residual path to dominate over sub-layer outputs and limiting the
learning capacity of deeper layers. To mitigate this issue, we propose
Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be
used in combination with existing approaches. GPAS works by scaling down the
intermediate activations while keeping their gradients unchanged. This leaves
information in the activations intact, and avoids the gradient vanishing
problem associated with gradient downscaling. Extensive experiments across
various model sizes from 71M to 1B show that GPAS achieves consistent
performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows
promise in improving alternative architectures such as Sandwich-LN and
DeepNorm, demonstrating its versatility and potential for improving training
dynamics in a wide range of settings.