Efficient-vDiT: Transformadores de Difusión de Video Eficientes con Atención por Bloques

Resumen

A pesar de la promesa de sintetizar videos de alta fidelidad, los Transformadores de Difusión (DiTs) con atención completa en 3D sufren de una inferencia costosa debido a la complejidad del cálculo de atención y a numerosos pasos de muestreo. Por ejemplo, el popular modelo Open-Sora-Plan tarda más de 9 minutos en generar un solo video de 29 cuadros. Este artículo aborda el problema de la ineficiencia desde dos aspectos: 1) Podar la atención completa en 3D basada en la redundancia dentro de los datos de video; Identificamos un patrón repetitivo de estilo de mosaico predominante en los mapas de atención en 3D para datos de video, y abogamos por una nueva familia de atención en 3D dispersa que mantiene una complejidad lineal con respecto al número de cuadros de video. 2) Acortar el proceso de muestreo adoptando la destilación de consistencia multi-paso existente; Dividimos toda la trayectoria de muestreo en varios segmentos y realizamos destilación de consistencia dentro de cada uno para activar capacidades de generación de pocos pasos. Además, diseñamos un pipeline de entrenamiento de tres etapas para combinar la atención de baja complejidad y las capacidades de generación de pocos pasos. Notablemente, con un 0.1% de datos de preentrenamiento, convertimos el modelo Open-Sora-Plan-1.2 en uno eficiente que es de 7.4x a 7.8x más rápido para la generación de videos de 29 y 93 cuadros en 720p con un margen de compromiso de rendimiento en VBench. Además, demostramos que nuestro enfoque es adecuado para la inferencia distribuida, logrando una aceleración adicional de 3.91x al ejecutarse en 4 GPUs con paralelismo de secuencia.

English

Despite the promise of synthesizing high-fidelity videos, Diffusion Transformers (DiTs) with 3D full attention suffer from expensive inference due to the complexity of attention computation and numerous sampling steps. For example, the popular Open-Sora-Plan model consumes more than 9 minutes for generating a single video of 29 frames. This paper addresses the inefficiency issue from two aspects: 1) Prune the 3D full attention based on the redundancy within video data; We identify a prevalent tile-style repetitive pattern in the 3D attention maps for video data, and advocate a new family of sparse 3D attention that holds a linear complexity w.r.t. the number of video frames. 2) Shorten the sampling process by adopting existing multi-step consistency distillation; We split the entire sampling trajectory into several segments and perform consistency distillation within each one to activate few-step generation capacities. We further devise a three-stage training pipeline to conjoin the low-complexity attention and few-step generation capacities. Notably, with 0.1% pretraining data, we turn the Open-Sora-Plan-1.2 model into an efficient one that is 7.4x -7.8x faster for 29 and 93 frames 720p video generation with a marginal performance trade-off in VBench. In addition, we demonstrate that our approach is amenable to distributed inference, achieving an additional 3.91x speedup when running on 4 GPUs with sequence parallelism.

Efficient-vDiT: Transformadores de Difusión de Video Eficientes con Atención por Bloques

Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

Resumen

Support