Minutenlange Video's met Dubbele Parallelismen
Minute-Long Videos with Dual Parallelisms
May 27, 2025
Auteurs: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI
Samenvatting
Diffusion Transformer (DiT)-gebaseerde videodiffusiemodellen genereren hoogwaardige video's op grote schaal, maar veroorzaken onaanvaardbare verwerkingslatentie en geheugenkosten voor lange video's. Om dit aan te pakken, stellen we een nieuwe gedistribueerde inferentiestrategie voor, genaamd DualParal. De kernidee is dat, in plaats van een volledige video op één GPU te genereren, we zowel temporele frames als modellagen paralleliseren over GPU's. Een naïeve implementatie van deze verdeling kampt echter met een belangrijke beperking: omdat diffusiemodellen gesynchroniseerde ruisniveaus over frames vereisen, leidt deze implementatie tot de serialisatie van oorspronkelijke parallelismen. We benutten een bloksgewijze ruisverwijderingsmethode om dit te hanteren. Namelijk, we verwerken een reeks frameblokken door de pijplijn met progressief afnemende ruisniveaus. Elke GPU verwerkt een specifiek blok en een subset van lagen terwijl eerdere resultaten worden doorgegeven aan de volgende GPU, waardoor asynchrone berekening en communicatie mogelijk worden. Om de prestaties verder te optimaliseren, incorporeren we twee belangrijke verbeteringen. Ten eerste wordt op elke GPU een functiecache geïmplementeerd om functies van het vorige blok als context op te slaan en te hergebruiken, waardoor inter-GPU-communicatie en redundante berekening worden geminimaliseerd. Ten tweede gebruiken we een gecoördineerde ruisinitialisatiestrategie, die wereldwijd consistente temporele dynamiek waarborgt door initiële ruispatronen over GPU's te delen zonder extra resourcekosten. Samen maken deze snelle, artefactvrije en oneindig lange videogeneratie mogelijk. Toegepast op de nieuwste diffusietransformer-videogenerator, produceert onze methode efficiënt video's van 1.025 frames met tot 6,54 keer lagere latentie en 1,48 keer lagere geheugenkosten op 8xRTX 4090 GPU's.
English
Diffusion Transformer (DiT)-based video diffusion models generate
high-quality videos at scale but incur prohibitive processing latency and
memory costs for long videos. To address this, we propose a novel distributed
inference strategy, termed DualParal. The core idea is that, instead of
generating an entire video on a single GPU, we parallelize both temporal frames
and model layers across GPUs. However, a naive implementation of this division
faces a key limitation: since diffusion models require synchronized noise
levels across frames, this implementation leads to the serialization of
original parallelisms. We leverage a block-wise denoising scheme to handle
this. Namely, we process a sequence of frame blocks through the pipeline with
progressively decreasing noise levels. Each GPU handles a specific block and
layer subset while passing previous results to the next GPU, enabling
asynchronous computation and communication. To further optimize performance, we
incorporate two key enhancements. Firstly, a feature cache is implemented on
each GPU to store and reuse features from the prior block as context,
minimizing inter-GPU communication and redundant computation. Secondly, we
employ a coordinated noise initialization strategy, ensuring globally
consistent temporal dynamics by sharing initial noise patterns across GPUs
without extra resource costs. Together, these enable fast, artifact-free, and
infinitely long video generation. Applied to the latest diffusion transformer
video generator, our method efficiently produces 1,025-frame videos with up to
6.54times lower latency and 1.48times lower memory cost on 8timesRTX
4090 GPUs.