Vidéos d'une minute avec des parallélismes doubles
Minute-Long Videos with Dual Parallelisms
May 27, 2025
Auteurs: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI
Résumé
Les modèles de diffusion vidéo basés sur les Transformers de Diffusion (DiT) génèrent des vidéos de haute qualité à grande échelle, mais entraînent des latences de traitement et des coûts mémoire prohibitifs pour les vidéos longues. Pour résoudre ce problème, nous proposons une nouvelle stratégie d'inférence distribuée, appelée DualParal. L'idée centrale est que, au lieu de générer une vidéo entière sur un seul GPU, nous parallélisons à la fois les trames temporelles et les couches du modèle sur plusieurs GPU. Cependant, une implémentation naïve de cette division rencontre une limitation clé : puisque les modèles de diffusion nécessitent des niveaux de bruit synchronisés entre les trames, cette implémentation conduit à la sérialisation des parallélismes originaux. Nous exploitons un schéma de débruitage par blocs pour y remédier. Concrètement, nous traitons une séquence de blocs de trames à travers le pipeline avec des niveaux de bruit décroissants progressivement. Chaque GPU gère un sous-ensemble spécifique de blocs et de couches tout en transmettant les résultats précédents au GPU suivant, permettant ainsi un calcul et une communication asynchrones. Pour optimiser davantage les performances, nous intégrons deux améliorations clés. Premièrement, un cache de caractéristiques est implémenté sur chaque GPU pour stocker et réutiliser les caractéristiques du bloc précédent comme contexte, minimisant ainsi la communication inter-GPU et les calculs redondants. Deuxièmement, nous utilisons une stratégie coordonnée d'initialisation du bruit, garantissant une dynamique temporelle globalement cohérente en partageant les motifs de bruit initiaux entre les GPU sans coût supplémentaire en ressources. Ensemble, ces éléments permettent une génération de vidéos rapide, sans artefacts et de longueur infinie. Appliquée au dernier générateur de vidéos par transformer de diffusion, notre méthode produit efficacement des vidéos de 1 025 trames avec une latence jusqu'à 6,54 fois inférieure et un coût mémoire 1,48 fois moindre sur 8 GPU RTX 4090.
English
Diffusion Transformer (DiT)-based video diffusion models generate
high-quality videos at scale but incur prohibitive processing latency and
memory costs for long videos. To address this, we propose a novel distributed
inference strategy, termed DualParal. The core idea is that, instead of
generating an entire video on a single GPU, we parallelize both temporal frames
and model layers across GPUs. However, a naive implementation of this division
faces a key limitation: since diffusion models require synchronized noise
levels across frames, this implementation leads to the serialization of
original parallelisms. We leverage a block-wise denoising scheme to handle
this. Namely, we process a sequence of frame blocks through the pipeline with
progressively decreasing noise levels. Each GPU handles a specific block and
layer subset while passing previous results to the next GPU, enabling
asynchronous computation and communication. To further optimize performance, we
incorporate two key enhancements. Firstly, a feature cache is implemented on
each GPU to store and reuse features from the prior block as context,
minimizing inter-GPU communication and redundant computation. Secondly, we
employ a coordinated noise initialization strategy, ensuring globally
consistent temporal dynamics by sharing initial noise patterns across GPUs
without extra resource costs. Together, these enable fast, artifact-free, and
infinitely long video generation. Applied to the latest diffusion transformer
video generator, our method efficiently produces 1,025-frame videos with up to
6.54times lower latency and 1.48times lower memory cost on 8timesRTX
4090 GPUs.Summary
AI-Generated Summary