ChatPaper.aiChatPaper

SANA-Video: Generazione Efficiente di Video con Trasformatore a Diffusione Lineare a Blocchi

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

September 29, 2025
Autori: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI

Abstract

Presentiamo SANA-Video, un piccolo modello di diffusione in grado di generare in modo efficiente video con risoluzione fino a 720x1280 e durata di un minuto. SANA-Video sintetizza video ad alta risoluzione, di alta qualità e di lunga durata con un forte allineamento testo-video a una velocità notevolmente rapida, distribuibile su GPU RTX 5090. Due design fondamentali garantiscono la nostra generazione di video efficiente, efficace e di lunga durata: (1) Linear DiT: Utilizziamo l'attenzione lineare come operazione principale, che è più efficiente rispetto all'attenzione standard dato il grande numero di token elaborati nella generazione di video. (2) Cache KV a memoria costante per l'attenzione lineare a blocchi: progettiamo un approccio autoregressivo a blocchi per la generazione di video lunghi impiegando uno stato a memoria costante, derivato dalle proprietà cumulative dell'attenzione lineare. Questa cache KV fornisce al Linear DiT un contesto globale a un costo di memoria fisso, eliminando la necessità di una tradizionale cache KV e consentendo una generazione efficiente di video della durata di un minuto. Inoltre, esploriamo filtri di dati efficaci e strategie di addestramento del modello, riducendo il costo di addestramento a 12 giorni su 64 GPU H100, che è solo l'1% del costo di MovieGen. Grazie al suo basso costo, SANA-Video raggiunge prestazioni competitive rispetto ai moderni modelli di diffusione di piccole dimensioni all'avanguardia (ad esempio, Wan 2.1-1.3B e SkyReel-V2-1.3B) mentre è 16 volte più veloce in termini di latenza misurata. Inoltre, SANA-Video può essere distribuito su GPU RTX 5090 con precisione NVFP4, accelerando la velocità di inferenza per la generazione di un video 720p di 5 secondi da 71s a 29s (un aumento di velocità di 2,4x). In sintesi, SANA-Video consente una generazione di video a basso costo e di alta qualità.
English
We introduce SANA-Video, a small diffusion model that can efficiently generate videos up to 720x1280 resolution and minute-length duration. SANA-Video synthesizes high-resolution, high-quality and long videos with strong text-video alignment at a remarkably fast speed, deployable on RTX 5090 GPU. Two core designs ensure our efficient, effective and long video generation: (1) Linear DiT: We leverage linear attention as the core operation, which is more efficient than vanilla attention given the large number of tokens processed in video generation. (2) Constant-Memory KV cache for Block Linear Attention: we design block-wise autoregressive approach for long video generation by employing a constant-memory state, derived from the cumulative properties of linear attention. This KV cache provides the Linear DiT with global context at a fixed memory cost, eliminating the need for a traditional KV cache and enabling efficient, minute-long video generation. In addition, we explore effective data filters and model training strategies, narrowing the training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of MovieGen. Given its low cost, SANA-Video achieves competitive performance compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover, SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x speedup). In summary, SANA-Video enables low-cost, high-quality video generation.
PDF422September 30, 2025