OSP-Next: Эффективная высококачественная генерация видео с использованием разреженного параллелизма последовательностей, квантования HiF8 и обучения с подкреплением
OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning
May 27, 2026
Авторы: Yunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan
cs.AI
Аннотация
Диффузионные трансформеры обеспечивают высокое качество генерации видео, однако квадратичная стоимость полного внимания ограничивает эффективность. Мы представляем OSP-Next — эффективную модель генерации видео по текстовому описанию, которая объединяет разреженное внимание, параллелизм, квантование и обучение с подкреплением. OSP-Next использует гибридную архитектуру полного/разреженного внимания, где разреженный компонент реализован с помощью Skiparse-2D Attention. Этот механизм с фиксированным шаблоном применяет потоковое и групповое разреженное внимание вдоль пространственных размерностей, используя локальность при сохранении нативной совместимости с ядрами FlashAttention. Основываясь на локальной эквивалентности перестановки в Skiparse-2D Attention, мы дополнительно предлагаем Разреженную последовательную параллельность (Sparse Sequence Parallelism, SSP), которая разделяет подпоследовательности между рангами и переключает разреженные шаблоны с помощью одной связи типа "все-ко-всем". По сравнению с Ulysses Sequence Parallelism (SP), SSP обеспечивает нативную параллельную стратегию для разреженного внимания и сокращает объем коммуникаций на 75%. OSP-Next также включает квантование HiF8 для обеспечения стабильного совместного обучения с 8-битным квантованием и разреженной тонкой настройкой, а также применяет пост-тренировку Mix-GRPO для улучшения производительности разреженной модели. Эксперименты показывают, что OSP-Next достигает общего балла VBench 83,73%, превосходя базовый уровень Wan2.1. При настройках 5-секундного 720P и 5-секундного 768P OSP-Next достигает ускорения до 1,64× на одной GPU и более 1,52× на восьми GPU на графических процессорах NVIDIA H200. Кроме того, при падении общего балла VBench всего на 0,4% OSP-Next-HiF8 достигает ускорения в 1,69× и 2,27× в двух настройках на одном Ascend 950PR, что демонстрирует эффективность и производительность OSP-Next на различных аппаратных платформах.
English
Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.