ChatPaper.aiChatPaper

GPAS: Beschleunigung der Konvergenz beim Vortraining von LLMs durch gradienterhaltende Aktivierungsskalierung

GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

June 27, 2025
Autoren: Tianhao Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang
cs.AI

Zusammenfassung

Moderne Large Language Models, wie die LLaMA-, Qwen- und DeepSeek-Serien, verwenden überwiegend die Pre-LayerNorm (Pre-LN) Transformer-Architektur. Obwohl diese Architektur während des Vortrainings stabil ist und sich auf große Modellgrößen skalieren lässt, leidet Pre-LN unter einem exponentiellen Anstieg der Aktivierungsvarianz über die Schichten hinweg. Dies führt dazu, dass der Residualpfad die Ausgaben der Unterschichten dominiert und die Lernkapazität tieferer Schichten einschränkt. Um dieses Problem zu mildern, schlagen wir Gradient-Preserving Activation Scaling (GPAS) vor, eine einfache Technik, die in Kombination mit bestehenden Ansätzen verwendet werden kann. GPAS funktioniert, indem es die Zwischenaktivierungen herunterskaliert, während ihre Gradienten unverändert bleiben. Dadurch bleibt die Information in den Aktivierungen intakt, und das Problem des Gradientenverschwindens, das mit der Gradientenabschwächung verbunden ist, wird vermieden. Umfangreiche Experimente über verschiedene Modellgrößen von 71M bis 1B zeigen, dass GPAS konsistente Leistungssteigerungen erzielt. Neben der Verbesserung von Pre-LN-Transformern zeigt GPAS auch Potenzial bei der Optimierung alternativer Architekturen wie Sandwich-LN und DeepNorm, was seine Vielseitigkeit und sein Potenzial zur Verbesserung der Trainingsdynamik in einer Vielzahl von Anwendungen unterstreicht.
English
Modern Large Language Models, such as the LLaMA, Qwen and DeepSeek series, predominantly adopt the Pre-LayerNorm (Pre-LN) Transformer architecture. While being stable during pretraining and scalable to large model sizes, Pre-LN suffers from an exponential growth in activation variance across layers, causing the residual path to dominate over sub-layer outputs and limiting the learning capacity of deeper layers. To mitigate this issue, we propose Gradient-Preserving Activation Scaling (GPAS), a simple technique that can be used in combination with existing approaches. GPAS works by scaling down the intermediate activations while keeping their gradients unchanged. This leaves information in the activations intact, and avoids the gradient vanishing problem associated with gradient downscaling. Extensive experiments across various model sizes from 71M to 1B show that GPAS achieves consistent performance gains. Beyond enhancing Pre-LN Transformers, GPAS also shows promise in improving alternative architectures such as Sandwich-LN and DeepNorm, demonstrating its versatility and potential for improving training dynamics in a wide range of settings.
PDF21June 30, 2025