2BP: Двухэтапное обратное распространение
2BP: 2-Stage Backpropagation
May 28, 2024
Авторы: Christopher Rae, Joseph K. L. Lee, James Richings
cs.AI
Аннотация
По мере увеличения размера и сложности глубоких нейронных сетей (DNN), они часто превышают объем памяти одного ускорителя, что требует разделения параметров модели между несколькими ускорителями. Параллелизм конвейеров - распространенная стратегия разделения для обучения больших DNN. Однако текущие реализации параллелизма конвейеров неумышленно замедляются инструментами автоматического дифференцирования, предоставляемыми фреймворками машинного обучения. В данной статье представлена 2-х ступенчатая обратная передача (2BP). Разделив шаг обратного распространения на два отдельных этапа, мы можем сократить время простоя вычислений. Мы протестировали 2BP на различных архитектурах моделей и графиках конвейеризации, добившись увеличения пропускной способности во всех случаях. Используя 2BP, мы смогли достичь увеличения пропускной способности в 1,70 раза по сравнению с традиционными методами при обучении трансформера подобного LLaMa с 7 миллиардами параметров на 4 графических процессорах.
English
As Deep Neural Networks (DNNs) grow in size and complexity, they often exceed
the memory capacity of a single accelerator, necessitating the sharding of
model parameters across multiple accelerators. Pipeline parallelism is a
commonly used sharding strategy for training large DNNs. However, current
implementations of pipeline parallelism are being unintentionally bottlenecked
by the automatic differentiation tools provided by ML frameworks. This paper
introduces 2-stage backpropagation (2BP). By splitting the backward propagation
step into two separate stages, we can reduce idle compute time. We tested 2BP
on various model architectures and pipelining schedules, achieving increases in
throughput in all cases. Using 2BP, we were able to achieve a 1.70x increase in
throughput compared to traditional methods when training a LLaMa-like
transformer with 7 billion parameters across 4 GPUs.