OSP-Next : Génération vidéo efficace et de haute qualité grâce au parallélisme de séquence éparse, à la quantification HiF8 et à l'apprentissage par renforcement

Résumé

Les Transformers de diffusion atteignent une qualité élevée de génération vidéo, mais le coût quadratique de l'attention complète limite leur efficacité. Nous présentons OSP-Next, un modèle efficace de génération texte-vers-vidéo qui intègre l'attention éparse, le parallélisme, la quantification et l'apprentissage par renforcement. OSP-Next utilise une architecture d'attention hybride complète-éparse, dont la composante éparse est implémentée avec l'attention Skiparse-2D. Ce mécanisme à motif fixe applique une attention éparse par jeton et par groupe le long des dimensions spatiales, tirant parti de la localité tout en maintenant une compatibilité native avec les noyaux FlashAttention. Sur la base de l'équivalence locale du réarrangement dans l'attention Skiparse-2D, nous proposons en outre le Parallélisme de Séquence Éparse (SSP), qui partitionne les sous-séquences entre les rangs et commute les motifs épars via une seule communication All-to-All. Comparé au Parallélisme de Séquence Ulysses (SP), le SSP offre une stratégie parallèle native pour l'attention éparse et réduit le volume de communication de 75 %. OSP-Next intègre également la quantification HiF8 pour permettre un entraînement conjoint stable avec une quantification 8 bits et un réglage fin éparse, et applique le post-entraînement Mix-GRPO pour améliorer les performances du modèle éparse. Les expériences montrent qu'OSP-Next atteint un score total VBench de 83,73 %, surpassant la référence Wan2.1. Dans les configurations 5 secondes 720P et 5 secondes 768P, OSP-Next obtient une accélération allant jusqu'à 1,64× sur GPU unique et plus de 1,52× sur huit GPU NVIDIA H200. De plus, avec seulement une baisse de 0,4 % du score total VBench, OSP-Next-HiF8 atteint des accélérations de 1,69× et 2,27× dans ces deux configurations sur un seul Ascend 950PR, démontrant l'efficacité et les performances d'OSP-Next sur différentes plateformes matérielles.

English

Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64times single-GPU speedup and over 1.52times eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69times and 2.27times speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.