SANA-Video: Generazione Efficiente di Video con Trasformatore a Diffusione Lineare a Blocchi
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
Autori: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
Abstract
Presentiamo SANA-Video, un piccolo modello di diffusione in grado di generare in modo efficiente video con risoluzione fino a 720x1280 e durata di un minuto. SANA-Video sintetizza video ad alta risoluzione, di alta qualità e di lunga durata con un forte allineamento testo-video a una velocità notevolmente rapida, distribuibile su GPU RTX 5090. Due design fondamentali garantiscono la nostra generazione di video efficiente, efficace e di lunga durata: (1) Linear DiT: Utilizziamo l'attenzione lineare come operazione principale, che è più efficiente rispetto all'attenzione standard dato il grande numero di token elaborati nella generazione di video. (2) Cache KV a memoria costante per l'attenzione lineare a blocchi: progettiamo un approccio autoregressivo a blocchi per la generazione di video lunghi impiegando uno stato a memoria costante, derivato dalle proprietà cumulative dell'attenzione lineare. Questa cache KV fornisce al Linear DiT un contesto globale a un costo di memoria fisso, eliminando la necessità di una tradizionale cache KV e consentendo una generazione efficiente di video della durata di un minuto. Inoltre, esploriamo filtri di dati efficaci e strategie di addestramento del modello, riducendo il costo di addestramento a 12 giorni su 64 GPU H100, che è solo l'1% del costo di MovieGen. Grazie al suo basso costo, SANA-Video raggiunge prestazioni competitive rispetto ai moderni modelli di diffusione di piccole dimensioni all'avanguardia (ad esempio, Wan 2.1-1.3B e SkyReel-V2-1.3B) mentre è 16 volte più veloce in termini di latenza misurata. Inoltre, SANA-Video può essere distribuito su GPU RTX 5090 con precisione NVFP4, accelerando la velocità di inferenza per la generazione di un video 720p di 5 secondi da 71s a 29s (un aumento di velocità di 2,4x). In sintesi, SANA-Video consente una generazione di video a basso costo e di alta qualità.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.