ChatPaper.aiChatPaper

Video di un Minuto con Parallelismi Duali

Minute-Long Videos with Dual Parallelisms

May 27, 2025
Autori: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI

Abstract

I modelli di diffusione video basati su Diffusion Transformer (DiT) generano video di alta qualità su larga scala, ma comportano una latenza di elaborazione e costi di memoria proibitivi per video lunghi. Per affrontare questo problema, proponiamo una nuova strategia di inferenza distribuita, denominata DualParal. L'idea centrale è che, invece di generare un intero video su una singola GPU, parallelizziamo sia i frame temporali che i livelli del modello su più GPU. Tuttavia, un'implementazione ingenua di questa divisione incontra una limitazione chiave: poiché i modelli di diffusione richiedono livelli di rumore sincronizzati tra i frame, questa implementazione porta alla serializzazione dei parallelismi originali. Sfruttiamo uno schema di denoising a blocchi per gestire questo problema. In particolare, elaboriamo una sequenza di blocchi di frame attraverso la pipeline con livelli di rumore progressivamente decrescenti. Ogni GPU gestisce un blocco specifico e un sottoinsieme di livelli, passando i risultati precedenti alla GPU successiva, consentendo calcoli e comunicazioni asincroni. Per ottimizzare ulteriormente le prestazioni, incorporiamo due miglioramenti chiave. In primo luogo, viene implementata una cache delle feature su ciascuna GPU per memorizzare e riutilizzare le feature del blocco precedente come contesto, minimizzando la comunicazione inter-GPU e i calcoli ridondanti. In secondo luogo, utilizziamo una strategia coordinata di inizializzazione del rumore, garantendo dinamiche temporali globalmente coerenti condividendo i pattern di rumore iniziali tra le GPU senza costi aggiuntivi di risorse. Insieme, questi elementi consentono una generazione video rapida, priva di artefatti e potenzialmente infinita. Applicato all'ultimo generatore video basato su diffusion transformer, il nostro metodo produce in modo efficiente video da 1.025 frame con una latenza fino a 6,54 volte inferiore e un costo di memoria 1,48 volte inferiore su 8 GPU RTX 4090.
English
Diffusion Transformer (DiT)-based video diffusion models generate high-quality videos at scale but incur prohibitive processing latency and memory costs for long videos. To address this, we propose a novel distributed inference strategy, termed DualParal. The core idea is that, instead of generating an entire video on a single GPU, we parallelize both temporal frames and model layers across GPUs. However, a naive implementation of this division faces a key limitation: since diffusion models require synchronized noise levels across frames, this implementation leads to the serialization of original parallelisms. We leverage a block-wise denoising scheme to handle this. Namely, we process a sequence of frame blocks through the pipeline with progressively decreasing noise levels. Each GPU handles a specific block and layer subset while passing previous results to the next GPU, enabling asynchronous computation and communication. To further optimize performance, we incorporate two key enhancements. Firstly, a feature cache is implemented on each GPU to store and reuse features from the prior block as context, minimizing inter-GPU communication and redundant computation. Secondly, we employ a coordinated noise initialization strategy, ensuring globally consistent temporal dynamics by sharing initial noise patterns across GPUs without extra resource costs. Together, these enable fast, artifact-free, and infinitely long video generation. Applied to the latest diffusion transformer video generator, our method efficiently produces 1,025-frame videos with up to 6.54times lower latency and 1.48times lower memory cost on 8timesRTX 4090 GPUs.
PDF52May 28, 2025