BranchNorm: Надежное масштабирование сверхглубоких трансформаторов
BranchNorm: Robustly Scaling Extremely Deep Transformers
May 4, 2023
Авторы: Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou
cs.AI
Аннотация
Недавно метод DeepNorm позволил масштабировать архитектуру Transformer до чрезвычайно большой глубины (например, 1000 слоев), раскрыв перспективный потенциал глубокого масштабирования. Для стабилизации обучения глубоких моделей DeepNorm (Wang et al., 2022) стремится ограничить обновление модели постоянным значением. Хотя применение такого ограничения может быть полезным на ранних этапах обучения модели, оно может привести к недостаточной обученности модели в течение всего процесса обучения. В данной статье мы предлагаем метод BranchNorm, который динамически масштабирует неостаточную ветвь Transformer в соответствии с этапом обучения. BranchNorm не только теоретически стабилизирует обучение, обеспечивая плавные нормы градиентов на начальном этапе, но также способствует лучшей сходимости на последующих этапах обучения. Результаты экспериментов на множестве задач перевода показывают, что BranchNorm достигает лучшего баланса между стабильностью обучения и производительностью сходимости.
English
Recently, DeepNorm scales Transformers into extremely deep (i.e., 1000
layers) and reveals the promising potential of deep scaling. To stabilize the
training of deep models, DeepNorm (Wang et al., 2022) attempts to constrain the
model update to a constant value. Although applying such a constraint can
benefit the early stage of model training, it may lead to undertrained models
during the whole training procedure. In this paper, we propose BranchNorm,
which dynamically rescales the non-residual branch of Transformer in accordance
with the training period. BranchNorm not only theoretically stabilizes the
training with smooth gradient norms at the early stage, but also encourages
better convergence in the subsequent training stage. Experiment results on
multiple translation tasks demonstrate that BranchNorm achieves a better
trade-off between training stability and converge performance.