SANA-Video: Generación Eficiente de Videos con Transformador de Difusión Lineal por Bloques
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
Autores: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
Resumen
Presentamos SANA-Video, un pequeño modelo de difusión que puede generar eficientemente videos con una resolución de hasta 720x1280 y una duración de varios minutos. SANA-Video sintetiza videos de alta resolución, alta calidad y larga duración con una fuerte alineación texto-video a una velocidad notablemente rápida, desplegable en GPU RTX 5090. Dos diseños clave aseguran nuestra generación de videos eficiente, efectiva y de larga duración: (1) Linear DiT: Utilizamos la atención lineal como operación central, que es más eficiente que la atención convencional dado el gran número de tokens procesados en la generación de videos. (2) Caché KV de memoria constante para Atención Lineal por Bloques: diseñamos un enfoque autoregresivo por bloques para la generación de videos largos empleando un estado de memoria constante, derivado de las propiedades acumulativas de la atención lineal. Este caché KV proporciona al Linear DiT un contexto global con un costo de memoria fijo, eliminando la necesidad de un caché KV tradicional y permitiendo una generación eficiente de videos de varios minutos. Además, exploramos filtros de datos efectivos y estrategias de entrenamiento del modelo, reduciendo el costo de entrenamiento a 12 días en 64 GPUs H100, lo que representa solo el 1% del costo de MovieGen. Dado su bajo costo, SANA-Video logra un rendimiento competitivo en comparación con los modelos modernos de difusión pequeños más avanzados (por ejemplo, Wan 2.1-1.3B y SkyReel-V2-1.3B), siendo 16 veces más rápido en latencia medida. Además, SANA-Video puede desplegarse en GPUs RTX 5090 con precisión NVFP4, acelerando la velocidad de inferencia para generar un video de 5 segundos en 720p de 71s a 29s (una aceleración de 2.4x). En resumen, SANA-Video permite la generación de videos de alta calidad a bajo costo.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.