ChatPaper.aiChatPaper

Steigerung der Effizienz des groß angelegten parallelen Trainings mit C4: Ein kommunikationsgetriebener Ansatz

Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

June 7, 2024
Autoren: Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu
cs.AI

Zusammenfassung

Das Aufkommen von Large Language Models (LLMs) hat die Einführung von parallelen Trainingstechniken erforderlich gemacht, die den Einsatz von Tausenden von GPUs zur Schulung eines einzelnen Modells umfassen. Leider haben wir festgestellt, dass die Effizienz des aktuellen parallelen Trainings oft suboptimal ist, hauptsächlich aufgrund der folgenden beiden Hauptprobleme. Erstens sind Hardwarefehler unvermeidlich und führen zu Unterbrechungen bei den Schulungsaufgaben. Die Unfähigkeit, die fehlerhaften Komponenten schnell zu identifizieren, führt zu einer erheblichen Verschwendung von GPU-Ressourcen. Zweitens können Netzwerküberlastungen die Wartezeit für GPUs erheblich verlängern, da GPUs auf die vollständige Parameter-Synchronisierung warten müssen, bevor sie mit der nächsten Berechnungsrunde fortfahren können. Um diese Herausforderungen anzugehen, stellt dieser Artikel eine kommunikationsgesteuerte Lösung vor, nämlich die C4. Die Schlüsselerkenntnisse von C4 sind zweifach. Erstens zeigt kollektive Kommunikation in parallelem Training periodische und homogene Eigenschaften, sodass Anomalien sicherlich auf eine Art von Hardwarefehler zurückzuführen sind. Durch die Nutzung dieses Merkmals kann C4 die fehlerhaften Komponenten schnell identifizieren, die Anomalie schnell isolieren und die Aufgabe neu starten, wodurch Ressourcenverschwendung durch Verzögerungen bei der Anomalieerkennung vermieden wird. Zweitens ermöglicht das vorhersehbare Kommunikationsmodell der kollektiven Kommunikation, das wenige große Datenflüsse umfasst, C4 eine effiziente Durchführung der Verkehrsplanung, wodurch Netzwerküberlastungen erheblich reduziert werden. C4 wurde umfassend in unseren Produktionssystemen implementiert, wodurch der durch Fehler verursachte Overhead um etwa 30% reduziert und die Laufzeitleistung für bestimmte Anwendungen mit moderaten Kommunikationskosten um etwa 15% verbessert wurde.
English
The emergence of Large Language Models (LLMs) has necessitated the adoption of parallel training techniques, involving the deployment of thousands of GPUs to train a single model. Unfortunately, we have found that the efficiency of current parallel training is often suboptimal, largely due to the following two main issues. Firstly, hardware failures are inevitable, leading to interruptions in the training tasks. The inability to quickly identify the faulty components results in a substantial waste of GPU resources. Secondly, since GPUs must wait for parameter synchronization to complete before proceeding to the next round of computation, network congestions can greatly increase the waiting time for GPUs. To address these challenges, this paper introduces a communication-driven solution, namely the C4. The key insights of C4 are two folds. First, in parallel training, collective communication exhibits periodic and homogeneous characteristics, so any anomalies are certainly due to some form of hardware malfunction. By leveraging this feature, C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and restart the task, thereby avoiding resource wastage caused by delays in anomaly detection. Second, the predictable communication model of collective communication, involving few large flows, allows C4 to efficiently execute traffic planning, substantially reducing network congestion. C4 has been extensively implemented across our production systems, cutting error-induced overhead by roughly 30% and enhancing runtime performance by about 15% for certain applications with moderate communication costs.

Summary

AI-Generated Summary

PDF80December 8, 2024