Revisitando el Servidor de Parámetros en el Post-entrenamiento de Modelos de Lenguaje Grandes

Resumen

El entrenamiento moderno en paralelo de datos (DP) favorece la comunicación colectiva sobre los servidores de parámetros (PS) por su simplicidad y eficiencia bajo cargas de trabajo equilibradas. Sin embargo, la suposición de carga equilibrada ya no se cumple en el post-entrenamiento de modelos de lenguaje grandes (LLM) debido a la alta varianza en las longitudes de secuencia. Bajo cargas de trabajo desequilibradas, la comunicación colectiva crea barreras de sincronización, lo que lleva a una subutilización de los dispositivos con cargas de trabajo menores. Este cambio en la dinámica del entrenamiento justifica un replanteamiento del paradigma de PS por su robustez ante dicho desequilibrio. Proponemos Comunicación Bajo Demanda (ODC), que adapta PS al Paralelismo de Datos Totalmente Fragmentado (FSDP) reemplazando la recolección total (all-gather) y la dispersión-reducción (reduce-scatter) colectivas con comunicación punto a punto directa. En comparación con FSDP, ODC reduce la barrera de sincronización de una vez por capa a una vez por minilote y desacopla la carga de trabajo en cada dispositivo para que los trabajadores más rápidos no se vean detenidos. También permite un balanceo de carga más simple y efectivo a nivel de minilote. En diversas tareas de post-entrenamiento de LLM, ODC mejora consistentemente la utilización de dispositivos y el rendimiento del entrenamiento, logrando una aceleración de hasta un 36% sobre FSDP estándar. Estos resultados demuestran que ODC es una opción superior para las cargas de trabajo desequilibradas prevalentes en el post-entrenamiento de LLM. Nuestra implementación de ODC y su integración con FSDP es de código abierto en https://github.com/sail-sg/odc.

English

Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.

Revisitando el Servidor de Parámetros en el Post-entrenamiento de Modelos de Lenguaje Grandes

Revisiting Parameter Server in LLM Post-Training

Resumen

Support