ChatPaper.aiChatPaper

効率的vDiT: アテンションを備えた効率的なビデオ拡散トランスフォーマー(Tile)

Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

February 10, 2025
著者: Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang
cs.AI

要旨

高品質なビデオを合成するという可能性にもかかわらず、3D全体の注意を持つ拡散トランスフォーマー(DiTs)は、注意計算の複雑さと多数のサンプリングステップによる推論の高コスト化に苦しんでいます。たとえば、人気のあるOpen-Sora-Planモデルは、29フレームの単一ビデオを生成するのに9分以上かかります。本論文では、効率の問題について2つの側面から取り組んでいます:1)ビデオデータ内の冗長性に基づいて3D全体の注意を削減する。ビデオデータの3D注意マップには、タイルスタイルの繰り返しパターンが広く見られ、ビデオフレーム数に対して線形の複雑さを持つ新しいファミリーの疎な3D注意を提唱しています。2)既存の多段階一貫性蒸留を採用してサンプリングプロセスを短縮する。全体のサンプリング軌跡を複数のセグメントに分割し、各セグメント内で一貫性蒸留を実行して少数のステップ生成能力を活性化します。さらに、低複雑度の注意と少数のステップ生成能力を結合するための3段階のトレーニングパイプラインを考案しています。特筆すべきは、0.1%の事前トレーニングデータを使用して、Open-Sora-Plan-1.2モデルを効率的なものに変え、VBenchにおいてわずかな性能のトレードオフで、29および93フレーム720pビデオ生成において7.4〜7.8倍高速化させました。さらに、我々のアプローチが分散推論に適しており、4つのGPUでシーケンス並列処理を実行すると、追加で3.91倍の高速化が達成されることを示しています。
English
Despite the promise of synthesizing high-fidelity videos, Diffusion Transformers (DiTs) with 3D full attention suffer from expensive inference due to the complexity of attention computation and numerous sampling steps. For example, the popular Open-Sora-Plan model consumes more than 9 minutes for generating a single video of 29 frames. This paper addresses the inefficiency issue from two aspects: 1) Prune the 3D full attention based on the redundancy within video data; We identify a prevalent tile-style repetitive pattern in the 3D attention maps for video data, and advocate a new family of sparse 3D attention that holds a linear complexity w.r.t. the number of video frames. 2) Shorten the sampling process by adopting existing multi-step consistency distillation; We split the entire sampling trajectory into several segments and perform consistency distillation within each one to activate few-step generation capacities. We further devise a three-stage training pipeline to conjoin the low-complexity attention and few-step generation capacities. Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video generation with a marginal performance trade-off in VBench. In addition, we demonstrate that our approach is amenable to distributed inference, achieving an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.

Summary

AI-Generated Summary

PDF102February 11, 2025