OSP-Next: Generación eficiente de video de alta calidad mediante Paralelismo de Secuencia Dispersa, Cuantificación HiF8 y Aprendizaje por Refuerzo
OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning
May 27, 2026
Autores: Yunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan
cs.AI
Resumen
Los Transformers de Difusión logran una alta calidad en la generación de videos, pero el costo cuadrático de la atención completa limita la eficiencia. Presentamos OSP-Next, un modelo eficiente de generación de texto a video que integra atención dispersa, paralelismo, cuantización y aprendizaje por refuerzo. OSP-Next utiliza una arquitectura de atención híbrida completa-dispersa, donde el componente disperso se implementa con Atención Dispersa Skiparse-2D. Este mecanismo de patrón fijo aplica atención dispersa por token y por grupo a lo largo de las dimensiones espaciales, aprovechando la localidad mientras mantiene compatibilidad nativa con los kernels de FlashAttention. Basándonos en la equivalencia local del reordenamiento en la Atención Dispersa Skiparse-2D, proponemos además el Paralelismo de Secuencias Dispersas (SSP), que divide subsecuencias entre rangos y cambia los patrones dispersos mediante una única comunicación All-to-All. En comparación con el Paralelismo de Secuencias Ulysses (SP), SSP proporciona una estrategia paralela nativa para la atención dispersa y reduce el volumen de comunicación en un 75%. OSP-Next también incorpora la cuantización HiF8 para permitir un entrenamiento conjunto estable con cuantización de 8 bits y ajuste fino disperso, y aplica un post-entrenamiento Mix-GRPO para mejorar el rendimiento del modelo disperso. Los experimentos muestran que OSP-Next alcanza una puntuación total VBench de 83.73%, superando la línea base de Wan2.1. Bajo las configuraciones de 5 segundos 720P y 5 segundos 768P, OSP-Next logra una aceleración de hasta 1.64 veces en una sola GPU y más de 1.52 veces en ocho GPUs NVIDIA H200. Además, con solo una caída del 0.4% en la puntuación total VBench, OSP-Next-HiF8 alcanza aceleraciones de 1.69 y 2.27 veces bajo las dos configuraciones en una sola Ascend 950PR, demostrando la eficiencia y el rendimiento de OSP-Next en diferentes plataformas de hardware.
English
Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.