OSP-Next: Generación eficiente de video de alta calidad mediante Paralelismo de Secuencia Dispersa, Cuantificación HiF8 y Aprendizaje por Refuerzo

Resumen

Los Transformers de Difusión logran una alta calidad en la generación de videos, pero el costo cuadrático de la atención completa limita la eficiencia. Presentamos OSP-Next, un modelo eficiente de generación de texto a video que integra atención dispersa, paralelismo, cuantización y aprendizaje por refuerzo. OSP-Next utiliza una arquitectura de atención híbrida completa-dispersa, donde el componente disperso se implementa con Atención Dispersa Skiparse-2D. Este mecanismo de patrón fijo aplica atención dispersa por token y por grupo a lo largo de las dimensiones espaciales, aprovechando la localidad mientras mantiene compatibilidad nativa con los kernels de FlashAttention. Basándonos en la equivalencia local del reordenamiento en la Atención Dispersa Skiparse-2D, proponemos además el Paralelismo de Secuencias Dispersas (SSP), que divide subsecuencias entre rangos y cambia los patrones dispersos mediante una única comunicación All-to-All. En comparación con el Paralelismo de Secuencias Ulysses (SP), SSP proporciona una estrategia paralela nativa para la atención dispersa y reduce el volumen de comunicación en un 75%. OSP-Next también incorpora la cuantización HiF8 para permitir un entrenamiento conjunto estable con cuantización de 8 bits y ajuste fino disperso, y aplica un post-entrenamiento Mix-GRPO para mejorar el rendimiento del modelo disperso. Los experimentos muestran que OSP-Next alcanza una puntuación total VBench de 83.73%, superando la línea base de Wan2.1. Bajo las configuraciones de 5 segundos 720P y 5 segundos 768P, OSP-Next logra una aceleración de hasta 1.64 veces en una sola GPU y más de 1.52 veces en ocho GPUs NVIDIA H200. Además, con solo una caída del 0.4% en la puntuación total VBench, OSP-Next-HiF8 alcanza aceleraciones de 1.69 y 2.27 veces bajo las dos configuraciones en una sola Ascend 950PR, demostrando la eficiencia y el rendimiento de OSP-Next en diferentes plataformas de hardware.

English

Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.