Эффективные Video Diffusion Transformers с вниманием к тайлам
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile
February 10, 2025
Авторы: Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang
cs.AI
Аннотация
Несмотря на перспективу синтеза видеороликов высокой точности, Диффузионные Трансформеры (DiTs) с трехмерным полным вниманием страдают от дорогостоящего вывода из-за сложности вычислений внимания и многочисленных этапов выборки. Например, популярная модель Open-Sora-Plan требует более 9 минут для создания одного видеоролика из 29 кадров. В данной статье рассматривается проблема неэффективности с двух сторон: 1) Обрезка трехмерного полного внимания на основе избыточности в видеоданных; Мы выявляем распространенный повторяющийся плиточный образец в трехмерных картах внимания для видеоданных и предлагаем новое семейство разреженного трехмерного внимания, имеющее линейную сложность относительно количества кадров видео. 2) Сокращение процесса выборки путем применения существующей дистилляции согласованности на нескольких этапах; Мы разбиваем всю траекторию выборки на несколько сегментов и проводим дистилляцию согласованности в каждом из них для активации возможностей генерации на несколько шагов. Мы также разрабатываем трехэтапный пайплайн обучения для объединения низкосложного внимания и возможностей генерации на несколько шагов. Особенно стоит отметить, что с использованием 0.1% предварительных данных мы превратили модель Open-Sora-Plan-1.2 в эффективную, которая работает в 7.4-7.8 раз быстрее для создания видео 720p из 29 и 93 кадров с незначительным снижением производительности в VBench. Кроме того, мы демонстрируем, что наш подход подходит для распределенного вывода, достигая дополнительного ускорения в 3.91 раза при работе на 4 GPU с параллелизмом последовательности.
English
Despite the promise of synthesizing high-fidelity videos, Diffusion
Transformers (DiTs) with 3D full attention suffer from expensive inference due
to the complexity of attention computation and numerous sampling steps. For
example, the popular Open-Sora-Plan model consumes more than 9 minutes for
generating a single video of 29 frames. This paper addresses the inefficiency
issue from two aspects: 1) Prune the 3D full attention based on the redundancy
within video data; We identify a prevalent tile-style repetitive pattern in the
3D attention maps for video data, and advocate a new family of sparse 3D
attention that holds a linear complexity w.r.t. the number of video frames. 2)
Shorten the sampling process by adopting existing multi-step consistency
distillation; We split the entire sampling trajectory into several segments and
perform consistency distillation within each one to activate few-step
generation capacities. We further devise a three-stage training pipeline to
conjoin the low-complexity attention and few-step generation capacities.
Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into
an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video
generation with a marginal performance trade-off in VBench. In addition, we
demonstrate that our approach is amenable to distributed inference, achieving
an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.Summary
AI-Generated Summary