Videos de un Minuto con Paralelismos Duales
Minute-Long Videos with Dual Parallelisms
May 27, 2025
Autores: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión de video basados en Transformadores de Difusión (DiT) generan videos de alta calidad a gran escala, pero incurren en una latencia de procesamiento y costos de memoria prohibitivos para videos largos. Para abordar esto, proponemos una novedosa estrategia de inferencia distribuida, denominada DualParal. La idea central es que, en lugar de generar un video completo en una sola GPU, paralelizamos tanto los fotogramas temporales como las capas del modelo a través de múltiples GPUs. Sin embargo, una implementación ingenua de esta división enfrenta una limitación clave: dado que los modelos de difusión requieren niveles de ruido sincronizados entre fotogramas, esta implementación conduce a la serialización de los paralelismos originales. Para manejar esto, aprovechamos un esquema de eliminación de ruido por bloques. Específicamente, procesamos una secuencia de bloques de fotogramas a través de la tubería con niveles de ruido progresivamente decrecientes. Cada GPU maneja un bloque y un subconjunto de capas específicos, mientras pasa los resultados anteriores a la siguiente GPU, permitiendo computación y comunicación asíncronas. Para optimizar aún más el rendimiento, incorporamos dos mejoras clave. En primer lugar, se implementa una caché de características en cada GPU para almacenar y reutilizar características del bloque anterior como contexto, minimizando la comunicación entre GPUs y la computación redundante. En segundo lugar, empleamos una estrategia coordinada de inicialización de ruido, asegurando dinámicas temporales globalmente consistentes al compartir patrones de ruido iniciales entre GPUs sin costos adicionales de recursos. Juntas, estas técnicas permiten una generación de video rápida, libre de artefactos y de longitud infinita. Aplicado al último generador de video basado en transformadores de difusión, nuestro método produce eficientemente videos de 1,025 fotogramas con una latencia hasta 6.54 veces menor y un costo de memoria 1.48 veces menor en 8 GPUs RTX 4090.
English
Diffusion Transformer (DiT)-based video diffusion models generate
high-quality videos at scale but incur prohibitive processing latency and
memory costs for long videos. To address this, we propose a novel distributed
inference strategy, termed DualParal. The core idea is that, instead of
generating an entire video on a single GPU, we parallelize both temporal frames
and model layers across GPUs. However, a naive implementation of this division
faces a key limitation: since diffusion models require synchronized noise
levels across frames, this implementation leads to the serialization of
original parallelisms. We leverage a block-wise denoising scheme to handle
this. Namely, we process a sequence of frame blocks through the pipeline with
progressively decreasing noise levels. Each GPU handles a specific block and
layer subset while passing previous results to the next GPU, enabling
asynchronous computation and communication. To further optimize performance, we
incorporate two key enhancements. Firstly, a feature cache is implemented on
each GPU to store and reuse features from the prior block as context,
minimizing inter-GPU communication and redundant computation. Secondly, we
employ a coordinated noise initialization strategy, ensuring globally
consistent temporal dynamics by sharing initial noise patterns across GPUs
without extra resource costs. Together, these enable fast, artifact-free, and
infinitely long video generation. Applied to the latest diffusion transformer
video generator, our method efficiently produces 1,025-frame videos with up to
6.54times lower latency and 1.48times lower memory cost on 8timesRTX
4090 GPUs.Summary
AI-Generated Summary