OSP-Next: Geração Eficiente de Vídeos de Alta Qualidade com Paralelismo de Sequência Esparso, Quantização HiF8 e Aprendizado por Reforço

Resumo

Transformers de Difusão alcançam alta qualidade na geração de vídeos, mas o custo quadrático da atenção completa limita a eficiência. Apresentamos o OSP-Next, um modelo eficiente de geração de texto para vídeo que integra atenção esparsa, paralelismo, quantização e aprendizado por reforço. O OSP-Next utiliza uma arquitetura de atenção híbrida completa-esparsa, onde o componente esparso é implementado com a Skiparse-2D Attention. Esse mecanismo de padrão fixo aplica atenção esparsa por token e por grupo ao longo das dimensões espaciais, aproveitando a localidade enquanto mantém compatibilidade nativa com kernels FlashAttention. Com base na equivalência local do rearranjo na Skiparse-2D Attention, propomos ainda o Paralelismo de Sequência Esparsa (SSP), que particiona subsequências entre ranks e alterna padrões esparsos por meio de uma única comunicação All-to-All. Em comparação com o Paralelismo de Sequência Ulysses (SP), o SSP fornece uma estratégia de paralelismo nativa para atenção esparsa e reduz o volume de comunicação em 75%. O OSP-Next também incorpora a quantização HiF8 para permitir treinamento conjunto estável com quantização de 8 bits e ajuste fino esparso, e aplica pós-treinamento Mix-GRPO para melhorar o desempenho do modelo esparso. Experimentos mostram que o OSP-Next atinge uma pontuação total no VBench de 83,73%, superando a linha de base Wan2.1. Nas configurações de 5 segundos 720P e 5 segundos 768P, o OSP-Next obtém uma aceleração de até 1,64 vezes em GPU única e mais de 1,52 vezes em oito GPUs NVIDIA H200. Além disso, com apenas uma queda de 0,4% na pontuação total do VBench, o OSP-Next-HiF8 alcança acelerações de 1,69 vezes e 2,27 vezes nas duas configurações em uma única Ascend 950PR, demonstrando a eficiência e o desempenho do OSP-Next em diferentes plataformas de hardware.

English

Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.