Neubetrachtung des Parameter-Servers in der Nachtraining-Phase von LLMs

papers.abstract

Moderne Data-Parallel (DP)-Trainingsverfahren bevorzugen kollektive Kommunikation gegenüber Parameter-Servern (PS) aufgrund ihrer Einfachheit und Effizienz bei ausgeglichenen Workloads. Die Annahme einer ausgeglichenen Arbeitslast gilt jedoch beim Post-Training großer Sprachmodelle (LLMs) aufgrund der hohen Varianz in Sequenzlängen nicht mehr. Bei unausgeglichenen Workloads erzeugen kollektive Kommunikationsverfahren Synchronisationsbarrieren, was zu einer Unterauslastung von Geräten mit geringerer Arbeitslast führt. Diese Veränderung der Trainingsdynamik erfordert eine Neubewertung des PS-Paradigmas aufgrund seiner Robustheit gegenüber solchen Ungleichgewichten. Wir schlagen On-Demand Communication (ODC) vor, das PS in Fully Sharded Data Parallel (FSDP) integriert, indem kollektive All-Gather- und Reduce-Scatter-Operationen durch direkte Punkt-zu-Punkt-Kommunikation ersetzt werden. Im Vergleich zu FSDP reduziert ODC die Synchronisationsbarriere von einmal pro Schicht auf einmal pro Minibatch und entkoppelt die Arbeitslast auf jedem Gerät, sodass schnellere Worker nicht blockiert werden. Es ermöglicht auch eine einfachere und effektivere Lastverteilung auf Minibatch-Ebene. In verschiedenen LLM-Post-Training-Aufgaben steigert ODC durchgängig die Geräteauslastung und Trainingsdurchsatz und erreicht bis zu 36 % Beschleunigung gegenüber standardmäßigem FSDP. Diese Ergebnisse zeigen, dass ODC besser für die vorherrschenden unausgeglichenen Workloads im LLM-Post-Training geeignet ist. Unsere Implementierung von ODC und Integration in FSDP ist quelloffen unter https://github.com/sail-sg/odc verfügbar.

English

Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.

Neubetrachtung des Parameter-Servers in der Nachtraining-Phase von LLMs

Revisiting Parameter Server in LLM Post-Training

papers.abstract

Support