Herziening van de Parameterserver in Post-Training van Large Language Models
Revisiting Parameter Server in LLM Post-Training
January 27, 2026
Auteurs: Xinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li
cs.AI
Samenvatting
Moderne data-parallelle (DP) training geeft de voorkeur aan collectieve communicatie boven parameterservers (PS) vanwege de eenvoud en efficiëntie bij gebalanceerde workloads. De aanname van een gebalanceerde workload gaat echter niet langer op bij de na-training van grote taalmodellen (LLM's) vanwege de hoge variantie in sequentielengtes. Onder ongebalanceerde workloads creëren collectieve communicatie synchronisatiebarrières, wat leidt tot onderbenutting van apparaten met kleinere workloads. Deze verandering in trainingsdynamiek vraagt om een herevaluatie van het PS-paradigma vanwege de robuustheid tegen dergelijke onbalans. Wij stellen On-Demand Communication (ODC) voor, dat PS aanpast naar Fully Sharded Data Parallel (FSDP) door collectieve all-gather en reduce-scatter te vervangen door directe point-to-point communicatie. Vergeleken met FSDP vermindert ODC de synchronisatiebarrière van één keer per laag naar één keer per minibatch en ontkoppelt het de workload op elk apparaat, zodat snellere workers niet worden tegengehouden. Het maakt ook eenvoudigere en effectievere load balancing op minibatchniveau mogelijk. Over diverse LLM na-taken verbetert ODC consistent de apparaatbenutting en trainingsdoorvoer, met een snelheidswinst tot 36% ten opzichte van standaard FSDP. Deze resultaten tonen aan dat ODC beter geschikt is voor de heersende ongebalanceerde workloads in LLM na-training. Onze implementatie van ODC en integratie met FSDP is open-source beschikbaar op https://github.com/sail-sg/odc.
English
Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.