Videos de un Minuto con Paralelismos Duales

Resumen

Los modelos de difusión de video basados en Transformadores de Difusión (DiT) generan videos de alta calidad a gran escala, pero incurren en una latencia de procesamiento y costos de memoria prohibitivos para videos largos. Para abordar esto, proponemos una novedosa estrategia de inferencia distribuida, denominada DualParal. La idea central es que, en lugar de generar un video completo en una sola GPU, paralelizamos tanto los fotogramas temporales como las capas del modelo a través de múltiples GPUs. Sin embargo, una implementación ingenua de esta división enfrenta una limitación clave: dado que los modelos de difusión requieren niveles de ruido sincronizados entre fotogramas, esta implementación conduce a la serialización de los paralelismos originales. Para manejar esto, aprovechamos un esquema de eliminación de ruido por bloques. Específicamente, procesamos una secuencia de bloques de fotogramas a través de la tubería con niveles de ruido progresivamente decrecientes. Cada GPU maneja un bloque y un subconjunto de capas específicos, mientras pasa los resultados anteriores a la siguiente GPU, permitiendo computación y comunicación asíncronas. Para optimizar aún más el rendimiento, incorporamos dos mejoras clave. En primer lugar, se implementa una caché de características en cada GPU para almacenar y reutilizar características del bloque anterior como contexto, minimizando la comunicación entre GPUs y la computación redundante. En segundo lugar, empleamos una estrategia coordinada de inicialización de ruido, asegurando dinámicas temporales globalmente consistentes al compartir patrones de ruido iniciales entre GPUs sin costos adicionales de recursos. Juntas, estas técnicas permiten una generación de video rápida, libre de artefactos y de longitud infinita. Aplicado al último generador de video basado en transformadores de difusión, nuestro método produce eficientemente videos de 1,025 fotogramas con una latencia hasta 6.54 veces menor y un costo de memoria 1.48 veces menor en 8 GPUs RTX 4090.

English

Diffusion Transformer (DiT)-based video diffusion models generate high-quality videos at scale but incur prohibitive processing latency and memory costs for long videos. To address this, we propose a novel distributed inference strategy, termed DualParal. The core idea is that, instead of generating an entire video on a single GPU, we parallelize both temporal frames and model layers across GPUs. However, a naive implementation of this division faces a key limitation: since diffusion models require synchronized noise levels across frames, this implementation leads to the serialization of original parallelisms. We leverage a block-wise denoising scheme to handle this. Namely, we process a sequence of frame blocks through the pipeline with progressively decreasing noise levels. Each GPU handles a specific block and layer subset while passing previous results to the next GPU, enabling asynchronous computation and communication. To further optimize performance, we incorporate two key enhancements. Firstly, a feature cache is implemented on each GPU to store and reuse features from the prior block as context, minimizing inter-GPU communication and redundant computation. Secondly, we employ a coordinated noise initialization strategy, ensuring globally consistent temporal dynamics by sharing initial noise patterns across GPUs without extra resource costs. Together, these enable fast, artifact-free, and infinitely long video generation. Applied to the latest diffusion transformer video generator, our method efficiently produces 1,025-frame videos with up to 6.54times lower latency and 1.48times lower memory cost on 8timesRTX 4090 GPUs.

Videos de un Minuto con Paralelismos Duales

Minute-Long Videos with Dual Parallelisms

Resumen

Support