SANA-Video: Generazione Efficiente di Video con Trasformatore a Diffusione Lineare a Blocchi

Abstract

Presentiamo SANA-Video, un piccolo modello di diffusione in grado di generare in modo efficiente video con risoluzione fino a 720x1280 e durata di un minuto. SANA-Video sintetizza video ad alta risoluzione, di alta qualità e di lunga durata con un forte allineamento testo-video a una velocità notevolmente rapida, distribuibile su GPU RTX 5090. Due design fondamentali garantiscono la nostra generazione di video efficiente, efficace e di lunga durata: (1) Linear DiT: Utilizziamo l'attenzione lineare come operazione principale, che è più efficiente rispetto all'attenzione standard dato il grande numero di token elaborati nella generazione di video. (2) Cache KV a memoria costante per l'attenzione lineare a blocchi: progettiamo un approccio autoregressivo a blocchi per la generazione di video lunghi impiegando uno stato a memoria costante, derivato dalle proprietà cumulative dell'attenzione lineare. Questa cache KV fornisce al Linear DiT un contesto globale a un costo di memoria fisso, eliminando la necessità di una tradizionale cache KV e consentendo una generazione efficiente di video della durata di un minuto. Inoltre, esploriamo filtri di dati efficaci e strategie di addestramento del modello, riducendo il costo di addestramento a 12 giorni su 64 GPU H100, che è solo l'1% del costo di MovieGen. Grazie al suo basso costo, SANA-Video raggiunge prestazioni competitive rispetto ai moderni modelli di diffusione di piccole dimensioni all'avanguardia (ad esempio, Wan 2.1-1.3B e SkyReel-V2-1.3B) mentre è 16 volte più veloce in termini di latenza misurata. Inoltre, SANA-Video può essere distribuito su GPU RTX 5090 con precisione NVFP4, accelerando la velocità di inferenza per la generazione di un video 720p di 5 secondi da 71s a 29s (un aumento di velocità di 2,4x). In sintesi, SANA-Video consente una generazione di video a basso costo e di alta qualità.

English

We introduce SANA-Video, a small diffusion model that can efficiently generate videos up to 720x1280 resolution and minute-length duration. SANA-Video synthesizes high-resolution, high-quality and long videos with strong text-video alignment at a remarkably fast speed, deployable on RTX 5090 GPU. Two core designs ensure our efficient, effective and long video generation: (1) Linear DiT: We leverage linear attention as the core operation, which is more efficient than vanilla attention given the large number of tokens processed in video generation. (2) Constant-Memory KV cache for Block Linear Attention: we design block-wise autoregressive approach for long video generation by employing a constant-memory state, derived from the cumulative properties of linear attention. This KV cache provides the Linear DiT with global context at a fixed memory cost, eliminating the need for a traditional KV cache and enabling efficient, minute-long video generation. In addition, we explore effective data filters and model training strategies, narrowing the training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of MovieGen. Given its low cost, SANA-Video achieves competitive performance compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover, SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x speedup). In summary, SANA-Video enables low-cost, high-quality video generation.

SANA-Video: Generazione Efficiente di Video con Trasformatore a Diffusione Lineare a Blocchi

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

Abstract

Support