Revisiter le serveur de paramètres dans le post-entraînement des grands modèles de langage

papers.abstract

L'entraînement moderne parallèle de données (DP) privilégie les communications collectives plutôt que les serveurs de paramètres (PS) pour leur simplicité et leur efficacité sous des charges de travail équilibrées. Cependant, l'hypothèse d'une charge équilibrée ne tient plus lors du post-entraînement des grands modèles de langage (LLM) en raison de la forte variance des longueurs de séquences. Sous des charges déséquilibrées, la communication collective crée des barrières de synchronisation, entraînant une sous-utilisation des dispositifs avec des charges plus légères. Ce changement de dynamique d'entraînement justifie un réexamen du paradigme PS pour sa robustesse face à ce déséquilibre. Nous proposons la Communication à la Demande (ODC), qui intègre PS au parallélisme de données entièrement fragmenté (FSDP) en remplaçant les opérations collectives de rassemblement et de dispersion par une communication directe point à point. Par rapport à FSDP, ODC réduit la barrière de synchronisation d'une fois par couche à une fois par mini-lot et découple la charge de travail sur chaque dispositif, évitant ainsi que les workers plus rapides ne soient bloqués. Elle permet également un équilibrage de charge plus simple et plus efficace au niveau du mini-lot. Sur diverses tâches de post-entraînement de LLM, ODC améliore constamment l'utilisation des dispositifs et le débit d'entraînement, atteignant jusqu'à 36 % d'accélération par rapport au FSDP standard. Ces résultats démontrent qu'ODC est mieux adapté aux charges de travail déséquilibrées prévalentes dans le post-entraînement des LLM. Notre implémentation d'ODC et son intégration à FSDP sont open-source à l'adresse https://github.com/sail-sg/odc.

English

Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.

Revisiter le serveur de paramètres dans le post-entraînement des grands modèles de langage

Revisiting Parameter Server in LLM Post-Training

papers.abstract

Support