OSP-Next: Эффективная высококачественная генерация видео с использованием разреженного параллелизма последовательностей, квантования HiF8 и обучения с подкреплением

Аннотация

Диффузионные трансформеры обеспечивают высокое качество генерации видео, однако квадратичная стоимость полного внимания ограничивает эффективность. Мы представляем OSP-Next — эффективную модель генерации видео по текстовому описанию, которая объединяет разреженное внимание, параллелизм, квантование и обучение с подкреплением. OSP-Next использует гибридную архитектуру полного/разреженного внимания, где разреженный компонент реализован с помощью Skiparse-2D Attention. Этот механизм с фиксированным шаблоном применяет потоковое и групповое разреженное внимание вдоль пространственных размерностей, используя локальность при сохранении нативной совместимости с ядрами FlashAttention. Основываясь на локальной эквивалентности перестановки в Skiparse-2D Attention, мы дополнительно предлагаем Разреженную последовательную параллельность (Sparse Sequence Parallelism, SSP), которая разделяет подпоследовательности между рангами и переключает разреженные шаблоны с помощью одной связи типа "все-ко-всем". По сравнению с Ulysses Sequence Parallelism (SP), SSP обеспечивает нативную параллельную стратегию для разреженного внимания и сокращает объем коммуникаций на 75%. OSP-Next также включает квантование HiF8 для обеспечения стабильного совместного обучения с 8-битным квантованием и разреженной тонкой настройкой, а также применяет пост-тренировку Mix-GRPO для улучшения производительности разреженной модели. Эксперименты показывают, что OSP-Next достигает общего балла VBench 83,73%, превосходя базовый уровень Wan2.1. При настройках 5-секундного 720P и 5-секундного 768P OSP-Next достигает ускорения до 1,64× на одной GPU и более 1,52× на восьми GPU на графических процессорах NVIDIA H200. Кроме того, при падении общего балла VBench всего на 0,4% OSP-Next-HiF8 достигает ускорения в 1,69× и 2,27× в двух настройках на одном Ascend 950PR, что демонстрирует эффективность и производительность OSP-Next на различных аппаратных платформах.

English

Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.