SANA-Video: Generación Eficiente de Videos con Transformador de Difusión Lineal por Bloques

Resumen

Presentamos SANA-Video, un pequeño modelo de difusión que puede generar eficientemente videos con una resolución de hasta 720x1280 y una duración de varios minutos. SANA-Video sintetiza videos de alta resolución, alta calidad y larga duración con una fuerte alineación texto-video a una velocidad notablemente rápida, desplegable en GPU RTX 5090. Dos diseños clave aseguran nuestra generación de videos eficiente, efectiva y de larga duración: (1) Linear DiT: Utilizamos la atención lineal como operación central, que es más eficiente que la atención convencional dado el gran número de tokens procesados en la generación de videos. (2) Caché KV de memoria constante para Atención Lineal por Bloques: diseñamos un enfoque autoregresivo por bloques para la generación de videos largos empleando un estado de memoria constante, derivado de las propiedades acumulativas de la atención lineal. Este caché KV proporciona al Linear DiT un contexto global con un costo de memoria fijo, eliminando la necesidad de un caché KV tradicional y permitiendo una generación eficiente de videos de varios minutos. Además, exploramos filtros de datos efectivos y estrategias de entrenamiento del modelo, reduciendo el costo de entrenamiento a 12 días en 64 GPUs H100, lo que representa solo el 1% del costo de MovieGen. Dado su bajo costo, SANA-Video logra un rendimiento competitivo en comparación con los modelos modernos de difusión pequeños más avanzados (por ejemplo, Wan 2.1-1.3B y SkyReel-V2-1.3B), siendo 16 veces más rápido en latencia medida. Además, SANA-Video puede desplegarse en GPUs RTX 5090 con precisión NVFP4, acelerando la velocidad de inferencia para generar un video de 5 segundos en 720p de 71s a 29s (una aceleración de 2.4x). En resumen, SANA-Video permite la generación de videos de alta calidad a bajo costo.

English

We introduce SANA-Video, a small diffusion model that can efficiently generate videos up to 720x1280 resolution and minute-length duration. SANA-Video synthesizes high-resolution, high-quality and long videos with strong text-video alignment at a remarkably fast speed, deployable on RTX 5090 GPU. Two core designs ensure our efficient, effective and long video generation: (1) Linear DiT: We leverage linear attention as the core operation, which is more efficient than vanilla attention given the large number of tokens processed in video generation. (2) Constant-Memory KV cache for Block Linear Attention: we design block-wise autoregressive approach for long video generation by employing a constant-memory state, derived from the cumulative properties of linear attention. This KV cache provides the Linear DiT with global context at a fixed memory cost, eliminating the need for a traditional KV cache and enabling efficient, minute-long video generation. In addition, we explore effective data filters and model training strategies, narrowing the training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of MovieGen. Given its low cost, SANA-Video achieves competitive performance compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover, SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x speedup). In summary, SANA-Video enables low-cost, high-quality video generation.