Riconsiderazione del Parameter Server nel Post-Addestramento dei Modelli Linguistici di Grande Dimensione

Abstract

L'addestramento dati parallelo (DP) moderno privilegia la comunicazione collettiva rispetto ai server dei parametri (PS) per la sua semplicità ed efficienza in condizioni di carico di lavoro bilanciato. Tuttavia, l'assunzione di carico bilanciato non è più valida nel post-addestramento di grandi modelli linguistici (LLM) a causa dell'elevata varianza nelle lunghezze delle sequenze. In condizioni di carico di lavoro squilibrato, la comunicazione collettiva crea barriere di sincronizzazione, portando a un sottoutilizzo dei dispositivi con carichi di lavoro minori. Questo cambiamento nelle dinamiche di addestramento richiede una rivalutazione del paradigma PS per la sua robustezza a tali squilibri. Proponiamo la Comunicazione On-Demand (ODC), che adatta i PS al Fully Sharded Data Parallel (FSDP) sostituendo le operazioni collettive di all-gather e reduce-scatter con una comunicazione diretta punto-punto. Rispetto a FSDP, ODC riduce la barriera di sincronizzazione da una volta per layer a una volta per minibatch e disaccoppia il carico di lavoro su ciascun dispositivo, evitando che i worker più veloci vengano bloccati. Consente inoltre un bilanciamento del carico più semplice ed efficace a livello di minibatch. In varie attività di post-addestramento di LLM, ODC migliora costantemente l'utilizzo dei dispositivi e la velocità di addestramento, raggiungendo un incremento delle prestazioni fino al 36% rispetto allo standard FSDP. Questi risultati dimostrano che ODC è una soluzione superiore per i prevalenti carichi di lavoro squilibrati nel post-addestramento degli LLM. La nostra implementazione di ODC e l'integrazione con FSDP è open-source all'indirizzo https://github.com/sail-sg/odc.

English

Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.

Riconsiderazione del Parameter Server nel Post-Addestramento dei Modelli Linguistici di Grande Dimensione

Revisiting Parameter Server in LLM Post-Training

Abstract

Support