ChatPaper.aiChatPaper

HybridNorm: 하이브리드 정규화를 통한 안정적이고 효율적인 트랜스포머 학습

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

March 6, 2025
저자: Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma
cs.AI

초록

트랜스포머(Transformers)는 다양한 머신러닝 작업, 특히 대규모 언어 모델(LLMs)에서 사실상 표준 아키텍처로 자리 잡았습니다. 그러나 뛰어난 성능에도 불구하고, 깊은 트랜스포머 네트워크를 훈련하는 데 있어서는 여전히 과제가 남아 있으며, 특히 레이어 정규화(layer normalization)의 위치와 관련된 문제가 있습니다. Pre-Norm 구조는 더 두드러진 항등 경로(identity path)로 인해 훈련이 더 쉬운 반면, 종종 Post-Norm에 비해 최적의 성능을 내지 못합니다. 본 논문에서는 Pre-Norm과 Post-Norm 접근법의 장점을 통합한 간단하면서도 효과적인 하이브리드 정규화 전략인 HybridNorm을 제안합니다. 구체적으로, HybridNorm은 어텐션 메커니즘 내에서 QKV 정규화를 사용하고, 각 트랜스포머 블록의 피드포워드 네트워크(FFN)에서는 Post-Norm을 적용합니다. 이 설계는 훈련을 안정화할 뿐만 아니라, 특히 LLMs의 맥락에서 성능을 향상시킵니다. 밀집(dense) 및 희소(sparse) 아키텍처 모두에서 수행한 포괄적인 실험 결과, HybridNorm은 Pre-Norm과 Post-Norm 접근법을 모두 능가하며 다양한 벤치마크에서 최첨단 결과를 달성했습니다. 이러한 결과는 HybridNorm이 깊은 트랜스포머 모델의 훈련과 성능을 개선하기 위한 더 안정적이고 효과적인 기술로서의 잠재력을 강조합니다. 코드는 https://github.com/BryceZhuo/HybridNorm에서 공개될 예정입니다.
English
Transformers have become the de facto architecture for a wide range of machine learning tasks, particularly in large language models (LLMs). Despite their remarkable performance, challenges remain in training deep transformer networks, especially regarding the location of layer normalization. While Pre-Norm structures facilitate easier training due to their more prominent identity path, they often yield suboptimal performance compared to Post-Norm. In this paper, we propose HybridNorm, a straightforward yet effective hybrid normalization strategy that integrates the advantages of both Pre-Norm and Post-Norm approaches. Specifically, HybridNorm employs QKV normalization within the attention mechanism and Post-Norm in the feed-forward network (FFN) of each transformer block. This design not only stabilizes training but also enhances performance, particularly in the context of LLMs. Comprehensive experiments in both dense and sparse architectures show that HybridNorm consistently outperforms both Pre-Norm and Post-Norm approaches, achieving state-of-the-art results across various benchmarks. These findings highlight the potential of HybridNorm as a more stable and effective technique for improving the training and performance of deep transformer models. %Code will be made publicly available. Code is available at https://github.com/BryceZhuo/HybridNorm.

Summary

AI-Generated Summary

PDF208March 7, 2025