HybridNorm: Naar stabiele en efficiënte Transformer-training via hybride normalisatie
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
March 6, 2025
Auteurs: Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma
cs.AI
Samenvatting
Transformers zijn de facto de standaardarchitectuur geworden voor een breed scala aan machine learning-taken, met name in grote taalmodellen (LLM's). Ondanks hun opmerkelijke prestaties blijven er uitdagingen bestaan bij het trainen van diepe transformer-netwerken, vooral met betrekking tot de plaatsing van laagnormalisatie. Hoewel Pre-Norm-structuren het trainen vergemakkelijken vanwege hun prominentere identiteitspad, leveren ze vaak suboptimale prestaties op in vergelijking met Post-Norm. In dit artikel stellen we HybridNorm voor, een eenvoudige maar effectieve hybridenormalisatiestrategie die de voordelen van zowel Pre-Norm als Post-Norm benaderingen integreert. Specifiek gebruikt HybridNorm QKV-normalisatie binnen het aandachtmechanisme en Post-Norm in het feedforward-netwerk (FFN) van elk transformer-blok. Dit ontwerp stabiliseert niet alleen het trainen, maar verbetert ook de prestaties, vooral in de context van LLM's. Uitgebreide experimenten in zowel dichte als sparse architecturen laten zien dat HybridNorm consistent beter presteert dan zowel Pre-Norm als Post-Norm benaderingen, waarbij state-of-the-art resultaten worden behaald op verschillende benchmarks. Deze bevindingen benadrukken het potentieel van HybridNorm als een stabielere en effectievere techniek voor het verbeteren van het trainen en de prestaties van diepe transformer-modellen. %Code zal publiekelijk beschikbaar worden gemaakt. Code is beschikbaar op https://github.com/BryceZhuo/HybridNorm.
English
Transformers have become the de facto architecture for a wide range of
machine learning tasks, particularly in large language models (LLMs). Despite
their remarkable performance, challenges remain in training deep transformer
networks, especially regarding the location of layer normalization. While
Pre-Norm structures facilitate easier training due to their more prominent
identity path, they often yield suboptimal performance compared to Post-Norm.
In this paper, we propose HybridNorm, a straightforward yet
effective hybrid normalization strategy that integrates the advantages of both
Pre-Norm and Post-Norm approaches. Specifically, HybridNorm employs QKV
normalization within the attention mechanism and Post-Norm in the feed-forward
network (FFN) of each transformer block. This design not only stabilizes
training but also enhances performance, particularly in the context of LLMs.
Comprehensive experiments in both dense and sparse architectures show that
HybridNorm consistently outperforms both Pre-Norm and Post-Norm approaches,
achieving state-of-the-art results across various benchmarks. These findings
highlight the potential of HybridNorm as a more stable and effective technique
for improving the training and performance of deep transformer models. %Code
will be made publicly available. Code is available at
https://github.com/BryceZhuo/HybridNorm.Summary
AI-Generated Summary