veScale-FSDP: Гибкий и высокопроизводительный FSDP для масштабирования

Аннотация

Полностью шардированный параллелизм данных (FSDP), также известный как ZeRO, широко используется для обучения моделей большого масштаба, отличаясь гибкостью и минимальным вмешательством в код модели. Однако современные системы FSDP сталкиваются с трудностями при работе со структурно-ориентированными методами обучения (такими как блочное квантованное обучение) и с не поэлементными оптимизаторами (например, Shampoo и Muon), используемыми в передовых моделях (таких как Gemini, Kimi K2). Фиксированные поэлементные или построчные форматы шардинга в FSDP конфликтуют с блочно-структурированными вычислениями. Кроме того, современные реализации отстают в эффективности коммуникаций и использования памяти, что ограничивает масштабирование до десятков тысяч GPU. Мы представляем veScale-FSDP — переработанную систему FSDP, которая сочетает гибкий формат шардинга RaggedShard со структурно-ориентированным алгоритмом планирования для обеспечения как гибкости, так и производительности в масштабе. veScale-FSDP нативно поддерживает эффективное размещение данных, требуемое FSDP, обеспечивая работу блочного квантования и не поэлементных оптимизаторов. В результате veScale-FSDP демонстрирует на 5–66% более высокую пропускную способность и на 16–30% меньшее использование памяти по сравнению с существующими системами FSDP, эффективно масштабируясь на десятки тысяч GPU.

English

Fully Sharded Data Parallel (FSDP), also known as ZeRO, is widely used for training large-scale models, featuring its flexibility and minimal intrusion on model code. However, current FSDP systems struggle with structure-aware training methods (e.g., block-wise quantized training) and with non-element-wise optimizers (e.g., Shampoo and Muon) used in cutting-edge models (e.g., Gemini, Kimi K2). FSDP's fixed element- or row-wise sharding formats conflict with the block-structured computations. In addition, today's implementations fall short in communication and memory efficiency, limiting scaling to tens of thousands of GPUs. We introduce veScale-FSDP, a redesigned FSDP system that couples a flexible sharding format, RaggedShard, with a structure-aware planning algorithm to deliver both flexibility and performance at scale. veScale-FSDP natively supports efficient data placement required by FSDP, empowering block-wise quantization and non-element-wise optimizers. As a result, veScale-FSDP achieves 5~66% higher throughput and 16~30% lower memory usage than existing FSDP systems, while scaling efficiently to tens of thousands of GPUs.

veScale-FSDP: Гибкий и высокопроизводительный FSDP для масштабирования

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Аннотация

Support