ChatPaper.aiChatPaper

Efficient-vDiT: Transformers de Difusão de Vídeo Eficientes com Atenção por Blocos

Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

February 10, 2025
Autores: Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang
cs.AI

Resumo

Apesar da promessa de sintetizar vídeos de alta fidelidade, os Transformadores de Difusão (DiTs) com atenção total em 3D sofrem de inferência dispendiosa devido à complexidade do cálculo de atenção e aos inúmeros passos de amostragem. Por exemplo, o modelo Open-Sora-Plan popular consome mais de 9 minutos para gerar um único vídeo de 29 frames. Este artigo aborda a questão da ineficiência a partir de dois aspectos: 1) Podar a atenção total em 3D com base na redundância nos dados de vídeo; Identificamos um padrão repetitivo em estilo de mosaico prevalente nos mapas de atenção em 3D para dados de vídeo, e defendemos uma nova família de atenção esparsa em 3D que mantém uma complexidade linear em relação ao número de frames de vídeo. 2) Reduzir o processo de amostragem ao adotar a destilação de consistência multi-passos existente; Dividimos toda a trajetória de amostragem em vários segmentos e realizamos a destilação de consistência em cada um para ativar capacidades de geração em poucos passos. Além disso, elaboramos um pipeline de treinamento de três estágios para combinar a atenção de baixa complexidade e as capacidades de geração em poucos passos. Notavelmente, com 0,1% dos dados de pré-treinamento, transformamos o modelo Open-Sora-Plan-1.2 em um eficiente que é de 7,4x a 7,8x mais rápido para geração de vídeo de 29 e 93 frames em 720p com uma compensação de desempenho marginal no VBench. Além disso, demonstramos que nossa abordagem é adequada para inferência distribuída, alcançando um aumento adicional de velocidade de 3,91x ao ser executada em 4 GPUs com paralelismo de sequência.
English
Despite the promise of synthesizing high-fidelity videos, Diffusion Transformers (DiTs) with 3D full attention suffer from expensive inference due to the complexity of attention computation and numerous sampling steps. For example, the popular Open-Sora-Plan model consumes more than 9 minutes for generating a single video of 29 frames. This paper addresses the inefficiency issue from two aspects: 1) Prune the 3D full attention based on the redundancy within video data; We identify a prevalent tile-style repetitive pattern in the 3D attention maps for video data, and advocate a new family of sparse 3D attention that holds a linear complexity w.r.t. the number of video frames. 2) Shorten the sampling process by adopting existing multi-step consistency distillation; We split the entire sampling trajectory into several segments and perform consistency distillation within each one to activate few-step generation capacities. We further devise a three-stage training pipeline to conjoin the low-complexity attention and few-step generation capacities. Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video generation with a marginal performance trade-off in VBench. In addition, we demonstrate that our approach is amenable to distributed inference, achieving an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.
PDF102February 11, 2025