ChatPaper.aiChatPaper

Vídeos de Um Minuto com Paralelismos Duplos

Minute-Long Videos with Dual Parallelisms

May 27, 2025
Autores: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI

Resumo

Modelos de difusão de vídeo baseados em Transformers de Difusão (DiT) geram vídeos de alta qualidade em escala, mas incorrem em latência de processamento e custos de memória proibitivos para vídeos longos. Para resolver isso, propomos uma nova estratégia de inferência distribuída, denominada DualParal. A ideia central é que, em vez de gerar um vídeo inteiro em uma única GPU, paralelizamos tanto os quadros temporais quanto as camadas do modelo em várias GPUs. No entanto, uma implementação ingênua dessa divisão enfrenta uma limitação crucial: como os modelos de difusão exigem níveis de ruído sincronizados entre os quadros, essa implementação leva à serialização dos paralelismos originais. Para lidar com isso, utilizamos um esquema de remoção de ruído em blocos. Ou seja, processamos uma sequência de blocos de quadros através do pipeline com níveis de ruído progressivamente decrescentes. Cada GPU lida com um subconjunto específico de blocos e camadas, enquanto passa os resultados anteriores para a próxima GPU, permitindo computação e comunicação assíncronas. Para otimizar ainda mais o desempenho, incorporamos dois aprimoramentos principais. Primeiro, um cache de recursos é implementado em cada GPU para armazenar e reutilizar recursos do bloco anterior como contexto, minimizando a comunicação entre GPUs e a computação redundante. Segundo, empregamos uma estratégia coordenada de inicialização de ruído, garantindo dinâmicas temporais globalmente consistentes ao compartilhar padrões de ruído inicial entre as GPUs sem custos extras de recursos. Juntos, esses elementos permitem a geração de vídeos rápidos, sem artefatos e de duração infinita. Aplicado ao mais recente gerador de vídeo baseado em transformer de difusão, nosso método produz eficientemente vídeos de 1.025 quadros com até 6,54 vezes menos latência e 1,48 vezes menor custo de memória em 8 GPUs RTX 4090.
English
Diffusion Transformer (DiT)-based video diffusion models generate high-quality videos at scale but incur prohibitive processing latency and memory costs for long videos. To address this, we propose a novel distributed inference strategy, termed DualParal. The core idea is that, instead of generating an entire video on a single GPU, we parallelize both temporal frames and model layers across GPUs. However, a naive implementation of this division faces a key limitation: since diffusion models require synchronized noise levels across frames, this implementation leads to the serialization of original parallelisms. We leverage a block-wise denoising scheme to handle this. Namely, we process a sequence of frame blocks through the pipeline with progressively decreasing noise levels. Each GPU handles a specific block and layer subset while passing previous results to the next GPU, enabling asynchronous computation and communication. To further optimize performance, we incorporate two key enhancements. Firstly, a feature cache is implemented on each GPU to store and reuse features from the prior block as context, minimizing inter-GPU communication and redundant computation. Secondly, we employ a coordinated noise initialization strategy, ensuring globally consistent temporal dynamics by sharing initial noise patterns across GPUs without extra resource costs. Together, these enable fast, artifact-free, and infinitely long video generation. Applied to the latest diffusion transformer video generator, our method efficiently produces 1,025-frame videos with up to 6.54times lower latency and 1.48times lower memory cost on 8timesRTX 4090 GPUs.
PDF72December 4, 2025