Revisitando o Servidor de Parâmetros no Pós-Treinamento de LLMs
Revisiting Parameter Server in LLM Post-Training
January 27, 2026
Autores: Xinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li
cs.AI
Resumo
O treinamento moderno em paralelismo de dados (DP) favorece a comunicação coletiva em detrimento de servidores de parâmetros (PS) devido à sua simplicidade e eficiência sob cargas de trabalho balanceadas. No entanto, a premissa de carga de trabalho balanceada já não se mantém no pós-treinamento de grandes modelos de linguagem (LLMs) devido à alta variância nos comprimentos das sequências. Sob cargas de trabalho desbalanceadas, a comunicação coletiva cria barreiras de sincronização, levando à subutilização de dispositivos com cargas de trabalho menores. Esta mudança na dinâmica de treinamento justifica uma reavaliação do paradigma PS devido à sua robustez face a tal desequilíbrio. Propomos a Comunicação Sob Demanda (ODC), que adapta o PS ao Paralelismo de Dados Totalmente Fragmentado (FSDP) substituindo as operações coletivas de all-gather e reduce-scatter por comunicação ponto-a-ponto direta. Em comparação com o FSDP, o ODC reduz a barreira de sincronização de uma vez por camada para uma vez por minilote e desacopla a carga de trabalho em cada dispositivo, de modo que os trabalhadores mais rápidos não fiquem bloqueados. Também permite um balanceamento de carga mais simples e eficaz ao nível do minilote. Em diversas tarefas de pós-treinamento de LLMs, o ODC melhora consistentemente a utilização dos dispositivos e a taxa de transferência do treinamento, alcançando uma aceleração de até 36% em relação ao FSDP padrão. Estes resultados demonstram que o ODC é uma opção superior para as cargas de trabalho desbalanceadas prevalecentes no pós-treinamento de LLMs. A nossa implementação do ODC e a sua integração com o FSDP são de código aberto em https://github.com/sail-sg/odc.
English
Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.