OSP-Next: Effiziente hochwertige Videogenerierung mit Sparse Sequence Parallelism, HiF8-Quantisierung und Reinforcement Learning

Zusammenfassung

Diffusionstransformer erzielen eine hohe Videoerzeugungsqualität, jedoch schränken die quadratischen Kosten der vollständigen Aufmerksamkeit (Full Attention) die Effizienz ein. Wir stellen OSP-Next vor, ein effizientes Text-zu-Video-Generierungsmodell, das sparse Attention, Parallelismus, Quantisierung und Reinforcement Learning integriert. OSP-Next verwendet eine hybride Full-Sparse-Attention-Architektur, bei der die sparse Komponente mittels Skiparse-2D-Attention implementiert wird. Dieser Mechanismus mit festem Muster wendet tokenweise und gruppenweise sparse Attention entlang der räumlichen Dimensionen an, nutzt dabei die Lokalität und bewahrt die native Kompatibilität mit FlashAttention-Kernels. Basierend auf der lokalen Äquivalenz der Umordnung in der Skiparse-2D-Attention schlagen wir ferner Sparse Sequence Parallelism (SSP) vor, das Teilsequenzen über Ränge hinweg partitioniert und durch eine einzige All-to-All-Kommunikation zwischen den sparsen Mustern umschaltet. Im Vergleich zu Ulysses Sequence Parallelism (SP) bietet SSP eine native parallele Strategie für sparse Attention und reduziert das Kommunikationsvolumen um 75 %. OSP-Next integriert zudem die HiF8-Quantisierung, um ein stabiles gemeinsames Training mit 8-Bit-Quantisierung und sparsen Feintuning zu ermöglichen, und wendet ein Mix-GRPO-Nachtraining an, um die Leistung des sparsen Modells zu verbessern. Experimente zeigen, dass OSP-Next eine VBench-Gesamtpunktzahl von 83,73 % erreicht und damit die Wan2.1-Baseline übertrifft. Unter den Einstellungen 5-Sekunden-720P und 5-Sekunden-768P erzielt OSP-Next auf NVIDIA H200 GPUs eine bis zu 1,64-fache Ein-GPU-Beschleunigung und eine über 1,52-fache Acht-GPU-Beschleunigung. Darüber hinaus erreicht OSP-Next-HiF8 bei einem Rückgang der VBench-Gesamtpunktzahl von nur 0,4 % unter den beiden Einstellungen auf einer einzelnen Ascend 950PR eine 1,69-fache bzw. 2,27-fache Beschleunigung, was die Effizienz und Leistungsfähigkeit von OSP-Next über Hardwareplattformen hinweg demonstriert.

English

Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.