ChatPaper.aiChatPaper

Переосмысление параметрического сервера в посттренинге больших языковых моделей

Revisiting Parameter Server in LLM Post-Training

January 27, 2026
Авторы: Xinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li
cs.AI

Аннотация

Современное обучение с распараллеливанием данных (DP) отдает предпочтение коллективным коммуникациям перед параметрическими серверами (PS) благодаря их простоте и эффективности при сбалансированных рабочих нагрузках. Однако предположение о сбалансированной нагрузке перестает выполняться при пост-тренинге больших языковых моделей (LLM) из-за высокой вариативности длин последовательностей. При несбалансированных нагрузках коллективные коммуникации создают барьеры синхронизации, приводя к недозагрузке устройств с меньшей нагрузкой. Это изменение динамики обучения требует пересмотра парадигмы PS в силу ее устойчивости к подобному дисбалансу. Мы предлагаем коммуникацию по требованию (On-Demand Communication, ODC), которая адаптирует PS в полностью шардированный распараллеленный по данным режим (FSDP), заменяя коллективные операции all-gather и reduce-scatter на прямую point-to-point связь. По сравнению с FSDP, ODC снижает частоту барьеров синхронизации с одного на слой до одного на мини-батч и развязывает рабочие нагрузки устройств, предотвращая простои более быстрых worker-ов. Это также позволяет реализовать более простой и эффективный балансировку нагрузки на уровне мини-батчей. В различных задачах пост-тренинга LLM ODC стабильно повышает утилизацию устройств и пропускную способность обучения, достигая ускорения до 36% по сравнению со стандартным FSDP. Эти результаты демонстрируют, что ODC оптимально подходит для распространенных несбалансированных рабочих нагрузок при пост-тренинге LLM. Наша реализация ODC и интеграция с FSDP имеет открытый исходный код по адресу https://github.com/sail-sg/odc.
English
Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose On-Demand Communication (ODC), which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.
PDF42January 29, 2026