Efficient-vDiT: Transformadores de Difusión de Video Eficientes con Atención por Bloques
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile
February 10, 2025
Autores: Hangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang
cs.AI
Resumen
A pesar de la promesa de sintetizar videos de alta fidelidad, los Transformadores de Difusión (DiTs) con atención completa en 3D sufren de una inferencia costosa debido a la complejidad del cálculo de atención y a numerosos pasos de muestreo. Por ejemplo, el popular modelo Open-Sora-Plan tarda más de 9 minutos en generar un solo video de 29 cuadros. Este artículo aborda el problema de la ineficiencia desde dos aspectos: 1) Podar la atención completa en 3D basada en la redundancia dentro de los datos de video; Identificamos un patrón repetitivo de estilo de mosaico predominante en los mapas de atención en 3D para datos de video, y abogamos por una nueva familia de atención en 3D dispersa que mantiene una complejidad lineal con respecto al número de cuadros de video. 2) Acortar el proceso de muestreo adoptando la destilación de consistencia multi-paso existente; Dividimos toda la trayectoria de muestreo en varios segmentos y realizamos destilación de consistencia dentro de cada uno para activar capacidades de generación de pocos pasos. Además, diseñamos un pipeline de entrenamiento de tres etapas para combinar la atención de baja complejidad y las capacidades de generación de pocos pasos. Notablemente, con un 0.1% de datos de preentrenamiento, convertimos el modelo Open-Sora-Plan-1.2 en uno eficiente que es de 7.4x a 7.8x más rápido para la generación de videos de 29 y 93 cuadros en 720p con un margen de compromiso de rendimiento en VBench. Además, demostramos que nuestro enfoque es adecuado para la inferencia distribuida, logrando una aceleración adicional de 3.91x al ejecutarse en 4 GPUs con paralelismo de secuencia.
English
Despite the promise of synthesizing high-fidelity videos, Diffusion
Transformers (DiTs) with 3D full attention suffer from expensive inference due
to the complexity of attention computation and numerous sampling steps. For
example, the popular Open-Sora-Plan model consumes more than 9 minutes for
generating a single video of 29 frames. This paper addresses the inefficiency
issue from two aspects: 1) Prune the 3D full attention based on the redundancy
within video data; We identify a prevalent tile-style repetitive pattern in the
3D attention maps for video data, and advocate a new family of sparse 3D
attention that holds a linear complexity w.r.t. the number of video frames. 2)
Shorten the sampling process by adopting existing multi-step consistency
distillation; We split the entire sampling trajectory into several segments and
perform consistency distillation within each one to activate few-step
generation capacities. We further devise a three-stage training pipeline to
conjoin the low-complexity attention and few-step generation capacities.
Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into
an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video
generation with a marginal performance trade-off in VBench. In addition, we
demonstrate that our approach is amenable to distributed inference, achieving
an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.Summary
AI-Generated Summary