Effizient-vDiT: Effiziente Video-Diffusions-Transformer mit Aufmerksamkeitsschicht
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile
February 10, 2025
Autoren: Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang
cs.AI
Zusammenfassung
Trotz des Versprechens, hochwertige Videos zu synthetisieren, leiden Diffusionstransformatoren (DiTs) mit 3D-Vollaufmerksamkeit unter teurer Inferenz aufgrund der Komplexität der Aufmerksamkeitsberechnung und zahlreicher Abtastschritte. Zum Beispiel benötigt das beliebte Open-Sora-Plan-Modell mehr als 9 Minuten, um ein einziges Video mit 29 Frames zu generieren. Dieser Artikel behandelt das Effizienzproblem aus zwei Aspekten: 1) Beschneiden der 3D-Vollaufmerksamkeit basierend auf der Redundanz innerhalb der Videodaten; Wir identifizieren ein weit verbreitetes kachelartiges wiederholendes Muster in den 3D-Aufmerksamkeitskarten für Videodaten und befürworten eine neue Familie von dünnen 3D-Aufmerksamkeit, die eine lineare Komplexität in Bezug auf die Anzahl der Videoframes aufweist. 2) Verkürzen des Abtastprozesses durch die Übernahme der bestehenden Mehrschritt-Konsistenzdestillation; Wir unterteilen die gesamte Abtasttrajektorie in mehrere Segmente und führen Konsistenzdestillation in jedem einzelnen durch, um wenige Schritte der Generationskapazitäten zu aktivieren. Wir entwickeln weiterhin eine dreistufige Schulungspipeline, um die Aufmerksamkeit mit geringer Komplexität und die Generationskapazitäten mit wenigen Schritten zu verbinden. Bemerkenswert ist, dass wir mit 0,1% der Vorab-Schulungsdaten das Open-Sora-Plan-1.2-Modell in ein effizientes Modell verwandeln, das für die Generierung von 29 und 93 Frames 720p-Videos 7,4x - 7,8x schneller ist, mit einem marginalen Leistungsausgleich in VBench. Darüber hinaus zeigen wir, dass unser Ansatz für verteilte Inferenz geeignet ist und einen zusätzlichen Geschwindigkeitszuwachs von 3,91x erzielt, wenn er auf 4 GPUs mit Sequenzparallelität ausgeführt wird.
English
Despite the promise of synthesizing high-fidelity videos, Diffusion
Transformers (DiTs) with 3D full attention suffer from expensive inference due
to the complexity of attention computation and numerous sampling steps. For
example, the popular Open-Sora-Plan model consumes more than 9 minutes for
generating a single video of 29 frames. This paper addresses the inefficiency
issue from two aspects: 1) Prune the 3D full attention based on the redundancy
within video data; We identify a prevalent tile-style repetitive pattern in the
3D attention maps for video data, and advocate a new family of sparse 3D
attention that holds a linear complexity w.r.t. the number of video frames. 2)
Shorten the sampling process by adopting existing multi-step consistency
distillation; We split the entire sampling trajectory into several segments and
perform consistency distillation within each one to activate few-step
generation capacities. We further devise a three-stage training pipeline to
conjoin the low-complexity attention and few-step generation capacities.
Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into
an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video
generation with a marginal performance trade-off in VBench. In addition, we
demonstrate that our approach is amenable to distributed inference, achieving
an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.Summary
AI-Generated Summary