LLM 사후 학습에서 파라미터 서버 재검토
Revisiting Parameter Server in LLM Post-Training
January 27, 2026
저자: Xinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li
cs.AI
초록
현대 데이터 병렬(DP) 학습은 균형 잡힌 작업 부하에서의 간결성과 효율성으로 인해 매개변수 서버(PS)보다 집단 통신을 선호합니다. 그러나 균형 잡힌 작업 부하 가정은 시퀀스 길이의 높은 변동성으로 인해 대규모 언어 모델(LLM) 후속 학습에서는 더 이상 유효하지 않습니다. 불균형한 작업 부하 상황에서 집단 통신은 동기화 장벽을 생성하여 작업 부하가 적은 장치의 활용도를 저하시킵니다. 이러한 학습 역학의 변화는 불균형에 대한 강건성으로 인해 PS 패러다임을 재검토할 필요성을 제기합니다. 우리는 집단적 전체 수집 및 축소 분산을 직접적인 점대점 통신으로 대체하여 PS를 완전 분산 데이터 병렬(FSDP)에 적용하는 주문형 통신(ODC)을 제안합니다. ODC는 FSDP 대비 동기화 장벽을 레이어당 한 번에서 미니배치당 한 번으로 줄이고, 각 장치의 작업 부하를 분리하여 더 빠른 작업자가 지연되지 않도록 합니다. 또한 미니배치 수준에서 더 간단하고 효과적인 부하 분산을 가능하게 합니다. 다양한 LLM 후속 학습 작업에서 ODC는 장치 활용도와 학습 처리량을 지속적으로 향상시켜 표준 FSDP 대비 최대 36%의 속도 향상을 달성했습니다. 이러한 결과는 ODC가 LLM 후속 학습에서 흔히 발생하는 불균형 작업 부하에 더 적합함을 보여줍니다. ODC의 구현 및 FSDP 통합 코드는 https://github.com/sail-sg/odc에서 오픈소스로 공개되어 있습니다.
English
Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.