Эффективные Video Diffusion Transformers с вниманием к тайлам

Аннотация

Несмотря на перспективу синтеза видеороликов высокой точности, Диффузионные Трансформеры (DiTs) с трехмерным полным вниманием страдают от дорогостоящего вывода из-за сложности вычислений внимания и многочисленных этапов выборки. Например, популярная модель Open-Sora-Plan требует более 9 минут для создания одного видеоролика из 29 кадров. В данной статье рассматривается проблема неэффективности с двух сторон: 1) Обрезка трехмерного полного внимания на основе избыточности в видеоданных; Мы выявляем распространенный повторяющийся плиточный образец в трехмерных картах внимания для видеоданных и предлагаем новое семейство разреженного трехмерного внимания, имеющее линейную сложность относительно количества кадров видео. 2) Сокращение процесса выборки путем применения существующей дистилляции согласованности на нескольких этапах; Мы разбиваем всю траекторию выборки на несколько сегментов и проводим дистилляцию согласованности в каждом из них для активации возможностей генерации на несколько шагов. Мы также разрабатываем трехэтапный пайплайн обучения для объединения низкосложного внимания и возможностей генерации на несколько шагов. Особенно стоит отметить, что с использованием 0.1% предварительных данных мы превратили модель Open-Sora-Plan-1.2 в эффективную, которая работает в 7.4-7.8 раз быстрее для создания видео 720p из 29 и 93 кадров с незначительным снижением производительности в VBench. Кроме того, мы демонстрируем, что наш подход подходит для распределенного вывода, достигая дополнительного ускорения в 3.91 раза при работе на 4 GPU с параллелизмом последовательности.

English

Despite the promise of synthesizing high-fidelity videos, Diffusion Transformers (DiTs) with 3D full attention suffer from expensive inference due to the complexity of attention computation and numerous sampling steps. For example, the popular Open-Sora-Plan model consumes more than 9 minutes for generating a single video of 29 frames. This paper addresses the inefficiency issue from two aspects: 1) Prune the 3D full attention based on the redundancy within video data; We identify a prevalent tile-style repetitive pattern in the 3D attention maps for video data, and advocate a new family of sparse 3D attention that holds a linear complexity w.r.t. the number of video frames. 2) Shorten the sampling process by adopting existing multi-step consistency distillation; We split the entire sampling trajectory into several segments and perform consistency distillation within each one to activate few-step generation capacities. We further devise a three-stage training pipeline to conjoin the low-complexity attention and few-step generation capacities. Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video generation with a marginal performance trade-off in VBench. In addition, we demonstrate that our approach is amenable to distributed inference, achieving an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.

Эффективные Video Diffusion Transformers с вниманием к тайлам

Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

Аннотация

Support