ChatPaper.aiChatPaper

OSP-Next: Effiziente hochwertige Videogenerierung mit Sparse Sequence Parallelism, HiF8-Quantisierung und Reinforcement Learning

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

May 27, 2026
Autoren: Yunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan
cs.AI

Zusammenfassung

Diffusionstransformer erzielen eine hohe Videoerzeugungsqualität, jedoch schränken die quadratischen Kosten der vollständigen Aufmerksamkeit (Full Attention) die Effizienz ein. Wir stellen OSP-Next vor, ein effizientes Text-zu-Video-Generierungsmodell, das sparse Attention, Parallelismus, Quantisierung und Reinforcement Learning integriert. OSP-Next verwendet eine hybride Full-Sparse-Attention-Architektur, bei der die sparse Komponente mittels Skiparse-2D-Attention implementiert wird. Dieser Mechanismus mit festem Muster wendet tokenweise und gruppenweise sparse Attention entlang der räumlichen Dimensionen an, nutzt dabei die Lokalität und bewahrt die native Kompatibilität mit FlashAttention-Kernels. Basierend auf der lokalen Äquivalenz der Umordnung in der Skiparse-2D-Attention schlagen wir ferner Sparse Sequence Parallelism (SSP) vor, das Teilsequenzen über Ränge hinweg partitioniert und durch eine einzige All-to-All-Kommunikation zwischen den sparsen Mustern umschaltet. Im Vergleich zu Ulysses Sequence Parallelism (SP) bietet SSP eine native parallele Strategie für sparse Attention und reduziert das Kommunikationsvolumen um 75 %. OSP-Next integriert zudem die HiF8-Quantisierung, um ein stabiles gemeinsames Training mit 8-Bit-Quantisierung und sparsen Feintuning zu ermöglichen, und wendet ein Mix-GRPO-Nachtraining an, um die Leistung des sparsen Modells zu verbessern. Experimente zeigen, dass OSP-Next eine VBench-Gesamtpunktzahl von 83,73 % erreicht und damit die Wan2.1-Baseline übertrifft. Unter den Einstellungen 5-Sekunden-720P und 5-Sekunden-768P erzielt OSP-Next auf NVIDIA H200 GPUs eine bis zu 1,64-fache Ein-GPU-Beschleunigung und eine über 1,52-fache Acht-GPU-Beschleunigung. Darüber hinaus erreicht OSP-Next-HiF8 bei einem Rückgang der VBench-Gesamtpunktzahl von nur 0,4 % unter den beiden Einstellungen auf einer einzelnen Ascend 950PR eine 1,69-fache bzw. 2,27-fache Beschleunigung, was die Effizienz und Leistungsfähigkeit von OSP-Next über Hardwareplattformen hinweg demonstriert.
English
Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.