GPAS: Ускорение сходимости предварительного обучения больших языковых моделей за счет масштабирования активаций с сохранением градиента
GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling
June 27, 2025
Авторы: Tianhao Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang
cs.AI
Аннотация
Современные крупные языковые модели, такие как серии LLaMA, Qwen и DeepSeek, преимущественно используют архитектуру Transformer с Pre-LayerNorm (Pre-LN). Хотя Pre-LN демонстрирует стабильность в процессе предварительного обучения и масштабируемость до больших размеров моделей, она страдает от экспоненциального роста дисперсии активаций между слоями, что приводит к доминированию остаточного пути над выходами подуровней и ограничивает обучаемость более глубоких слоев. Для решения этой проблемы мы предлагаем Gradient-Preserving Activation Scaling (GPAS) — простую технику, которая может использоваться в сочетании с существующими подходами. GPAS работает за счет уменьшения масштаба промежуточных активаций при сохранении их градиентов неизменными. Это позволяет сохранить информацию в активациях и избежать проблемы исчезновения градиентов, связанной с уменьшением их масштаба. Многочисленные эксперименты на моделях различных размеров от 71 млн до 1 млрд параметров показывают, что GPAS обеспечивает стабильное улучшение производительности. Помимо улучшения Pre-LN Transformers, GPAS также демонстрирует потенциал в усовершенствовании альтернативных архитектур, таких как Sandwich-LN и DeepNorm, что подчеркивает его универсальность и перспективы для улучшения динамики обучения в широком спектре сценариев.
English
Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series,
predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While
being stable during pretraining and scalable to large model sizes, Pre-LN
suffers from an exponential growth in activation variance across layers,
causing the residual path to dominate over sub-layer outputs and limiting the
learning capacity of deeper layers. To mitigate this issue, we propose
Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be
used in combination with existing approaches. GPAS works by scaling down the
intermediate activations while keeping their gradients unchanged. This leaves
information in the activations intact, and avoids the gradient vanishing
problem associated with gradient downscaling. Extensive experiments across
various model sizes from 71M to 1B show that GPAS achieves consistent
performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows
promise in improving alternative architectures such as Sandwich-LN and
DeepNorm, demonstrating its versatility and potential for improving training
dynamics in a wide range of settings.