veScale-FSDP: Гибкий и высокопроизводительный FSDP для масштабирования
veScale-FSDP: Flexible and High-Performance FSDP at Scale
February 25, 2026
Авторы: Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu
cs.AI
Аннотация
Полностью шардированный параллелизм данных (FSDP), также известный как ZeRO, широко используется для обучения моделей большого масштаба, отличаясь гибкостью и минимальным вмешательством в код модели. Однако современные системы FSDP сталкиваются с трудностями при работе со структурно-ориентированными методами обучения (такими как блочное квантованное обучение) и с не поэлементными оптимизаторами (например, Shampoo и Muon), используемыми в передовых моделях (таких как Gemini, Kimi K2). Фиксированные поэлементные или построчные форматы шардинга в FSDP конфликтуют с блочно-структурированными вычислениями. Кроме того, современные реализации отстают в эффективности коммуникаций и использования памяти, что ограничивает масштабирование до десятков тысяч GPU. Мы представляем veScale-FSDP — переработанную систему FSDP, которая сочетает гибкий формат шардинга RaggedShard со структурно-ориентированным алгоритмом планирования для обеспечения как гибкости, так и производительности в масштабе. veScale-FSDP нативно поддерживает эффективное размещение данных, требуемое FSDP, обеспечивая работу блочного квантования и не поэлементных оптимизаторов. В результате veScale-FSDP демонстрирует на 5–66% более высокую пропускную способность и на 16–30% меньшее использование памяти по сравнению с существующими системами FSDP, эффективно масштабируясь на десятки тысяч GPU.
English
Fully Sharded Data Parallel (FSDP), also known as ZeRO, is widely used for training large-scale models, featuring its flexibility and minimal intrusion on model code. However, current FSDP systems struggle with structure-aware training methods (e.g., block-wise quantized training) and with non-element-wise optimizers (e.g., Shampoo and Muon) used in cutting-edge models (e.g., Gemini, Kimi K2). FSDP's fixed element- or row-wise sharding formats conflict with the block-structured computations. In addition, today's implementations fall short in communication and memory efficiency, limiting scaling to tens of thousands of GPUs. We introduce veScale-FSDP, a redesigned FSDP system that couples a flexible sharding format, RaggedShard, with a structure-aware planning algorithm to deliver both flexibility and performance at scale. veScale-FSDP natively supports efficient data placement required by FSDP, empowering block-wise quantization and non-element-wise optimizers. As a result, veScale-FSDP achieves 5~66% higher throughput and 16~30% lower memory usage than existing FSDP systems, while scaling efficiently to tens of thousands of GPUs.