ChatPaper.aiChatPaper

2BP: 2-stufige Rückwärtspropagation

2BP: 2-Stage Backpropagation

May 28, 2024
Autoren: Christopher Rae, Joseph K. L. Lee, James Richings
cs.AI

Zusammenfassung

Mit zunehmender Größe und Komplexität von Deep Neural Networks (DNNs) überschreiten sie oft die Speicherkapazität eines einzelnen Beschleunigers, was die Aufteilung der Modellparameter auf mehrere Beschleuniger erforderlich macht. Die Pipeline-Parallelität ist eine häufig verwendete Aufteilungsstrategie zur Schulung großer DNNs. Allerdings werden aktuelle Implementierungen der Pipeline-Parallelität unbeabsichtigt durch die automatischen Differentiationswerkzeuge, die von ML-Frameworks bereitgestellt werden, ausgebremst. Dieses Papier stellt das 2-stufige Backpropagation (2BP) vor. Durch die Aufteilung des Rückpropagierungsschritts in zwei separate Phasen können wir die Leerlauf-Rechenzeit reduzieren. Wir haben 2BP an verschiedenen Modellarchitekturen und Pipelining-Zeitplänen getestet und in allen Fällen eine Steigerung der Durchsatzleistung erzielt. Unter Verwendung von 2BP konnten wir im Vergleich zu traditionellen Methoden bei der Schulung eines LLaMa-ähnlichen Transformers mit 7 Milliarden Parametern auf 4 GPUs eine Steigerung der Durchsatzleistung um das 1,70-fache erreichen.
English
As Deep Neural Networks (DNNs) grow in size and complexity, they often exceed the memory capacity of a single accelerator, necessitating the sharding of model parameters across multiple accelerators. Pipeline parallelism is a commonly used sharding strategy for training large DNNs. However, current implementations of pipeline parallelism are being unintentionally bottlenecked by the automatic differentiation tools provided by ML frameworks. This paper introduces 2-stage backpropagation (2BP). By splitting the backward propagation step into two separate stages, we can reduce idle compute time. We tested 2BP on various model architectures and pipelining schedules, achieving increases in throughput in all cases. Using 2BP, we were able to achieve a 1.70x increase in throughput compared to traditional methods when training a LLaMa-like transformer with 7 billion parameters across 4 GPUs.

Summary

AI-Generated Summary

PDF276December 12, 2024