Minutenlange Videos mit dualen Parallelismen
Minute-Long Videos with Dual Parallelisms
May 27, 2025
Autoren: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI
Zusammenfassung
Diffusion Transformer (DiT)-basierte Video-Diffusionsmodelle erzeugen hochwertige Videos in großem Maßstab, verursachen jedoch prohibitive Verarbeitungslatenz und Speicherkosten für lange Videos. Um dies zu adressieren, schlagen wir eine neuartige verteilte Inferenzstrategie vor, genannt DualParal. Die Kernidee besteht darin, dass wir anstelle der Erzeugung eines gesamten Videos auf einer einzelnen GPU sowohl zeitliche Frames als auch Modellschichten über GPUs parallelisieren. Eine naive Implementierung dieser Aufteilung stößt jedoch auf eine entscheidende Einschränkung: Da Diffusionsmodelle synchronisierte Rauschpegel über Frames hinweg erfordern, führt diese Implementierung zur Serialisierung ursprünglicher Parallelismen. Wir nutzen ein blockweises Entrauschungsschema, um dies zu bewältigen. Konkret verarbeiten wir eine Sequenz von Frame-Blöcken durch die Pipeline mit progressiv abnehmenden Rauschpegeln. Jede GPU bearbeitet einen spezifischen Block und eine Teilmenge der Schichten, während vorherige Ergebnisse an die nächste GPU weitergegeben werden, was asynchrone Berechnung und Kommunikation ermöglicht. Um die Leistung weiter zu optimieren, integrieren wir zwei wesentliche Verbesserungen. Erstens wird auf jeder GPU ein Feature-Cache implementiert, um Features aus dem vorherigen Block als Kontext zu speichern und wiederzuverwenden, wodurch die Inter-GPU-Kommunikation und redundante Berechnungen minimiert werden. Zweitens verwenden wir eine koordinierte Rauschinitialisierungsstrategie, die global konsistente zeitliche Dynamik sicherstellt, indem initiale Rauschmuster über GPUs hinweg geteilt werden, ohne zusätzliche Ressourcenkosten zu verursachen. Zusammen ermöglichen diese Ansätze eine schnelle, artefaktfreie und unendlich lange Videogenerierung. Angewendet auf den neuesten Diffusion-Transformer-Videogenerator, produziert unsere Methode effizient 1.025-Frame-Videos mit bis zu 6,54-fach geringerer Latenz und 1,48-fach geringeren Speicherkosten auf 8xRTX 4090 GPUs.
English
Diffusion Transformer (DiT)-based video diffusion models generate
high-quality videos at scale but incur prohibitive processing latency and
memory costs for long videos. To address this, we propose a novel distributed
inference strategy, termed DualParal. The core idea is that, instead of
generating an entire video on a single GPU, we parallelize both temporal frames
and model layers across GPUs. However, a naive implementation of this division
faces a key limitation: since diffusion models require synchronized noise
levels across frames, this implementation leads to the serialization of
original parallelisms. We leverage a block-wise denoising scheme to handle
this. Namely, we process a sequence of frame blocks through the pipeline with
progressively decreasing noise levels. Each GPU handles a specific block and
layer subset while passing previous results to the next GPU, enabling
asynchronous computation and communication. To further optimize performance, we
incorporate two key enhancements. Firstly, a feature cache is implemented on
each GPU to store and reuse features from the prior block as context,
minimizing inter-GPU communication and redundant computation. Secondly, we
employ a coordinated noise initialization strategy, ensuring globally
consistent temporal dynamics by sharing initial noise patterns across GPUs
without extra resource costs. Together, these enable fast, artifact-free, and
infinitely long video generation. Applied to the latest diffusion transformer
video generator, our method efficiently produces 1,025-frame videos with up to
6.54times lower latency and 1.48times lower memory cost on 8timesRTX
4090 GPUs.Summary
AI-Generated Summary