ChatPaper.aiChatPaper

BranchNorm: Scalabilità Robusta per Trasformatori Estremamente Profondi

BranchNorm: Robustly Scaling Extremely Deep Transformers

May 4, 2023
Autori: Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou
cs.AI

Abstract

Recentemente, DeepNorm ha scalato i Transformer a profondità estreme (ad esempio, 1000 strati) e ha rivelato il potenziale promettente del deep scaling. Per stabilizzare l'addestramento di modelli profondi, DeepNorm (Wang et al., 2022) tenta di limitare l'aggiornamento del modello a un valore costante. Sebbene l'applicazione di tale vincolo possa essere vantaggiosa nelle fasi iniziali dell'addestramento del modello, potrebbe portare a modelli sottoposti a un addestramento insufficiente durante l'intero processo. In questo articolo, proponiamo BranchNorm, che ridimensiona dinamicamente il ramo non residuo del Transformer in base al periodo di addestramento. BranchNorm non solo stabilizza teoricamente l'addestramento con gradienti regolari nelle fasi iniziali, ma favorisce anche una migliore convergenza nelle fasi successive. I risultati sperimentali su molteplici task di traduzione dimostrano che BranchNorm raggiunge un migliore equilibrio tra stabilità dell'addestramento e prestazioni di convergenza.
English
Recently, DeepNorm scales Transformers into extremely deep (i.e., 1000 layers) and reveals the promising potential of deep scaling. To stabilize the training of deep models, DeepNorm (Wang et al., 2022) attempts to constrain the model update to a constant value. Although applying such a constraint can benefit the early stage of model training, it may lead to undertrained models during the whole training procedure. In this paper, we propose BranchNorm, which dynamically rescales the non-residual branch of Transformer in accordance with the training period. BranchNorm not only theoretically stabilizes the training with smooth gradient norms at the early stage, but also encourages better convergence in the subsequent training stage. Experiment results on multiple translation tasks demonstrate that BranchNorm achieves a better trade-off between training stability and converge performance.
PDF10January 3, 2026