SANA-Video: Efficiënte Videogeneratie met Blok Lineaire Diffusie Transformer
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
Auteurs: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
Samenvatting
We introduceren SANA-Video, een klein diffusiemodel dat efficiënt video's kan genereren met een resolutie tot 720x1280 en een duur van minutenlengte. SANA-Video synthetiseert hoogwaardige, hoogresolutie en lange video's met een sterke tekst-video-uitlijning op een opmerkelijk hoge snelheid, inzetbaar op een RTX 5090 GPU. Twee kernontwerpen zorgen voor onze efficiënte, effectieve en lange videogeneratie: (1) Lineaire DiT: We maken gebruik van lineaire aandacht als kernoperatie, wat efficiënter is dan standaard aandacht gezien het grote aantal tokens dat wordt verwerkt bij videogeneratie. (2) Constant-Memory KV-cache voor Block Lineaire Aandacht: we ontwerpen een bloksgewijze autoregressieve aanpak voor lange videogeneratie door een constant-geheugenstatus te gebruiken, afgeleid van de cumulatieve eigenschappen van lineaire aandacht. Deze KV-cache biedt de Lineaire DiT een globale context tegen vaste geheugenkosten, waardoor de behoefte aan een traditionele KV-cache wordt geëlimineerd en efficiënte, minutenlange videogeneratie mogelijk wordt. Daarnaast onderzoeken we effectieve datafilters en modeltrainingsstrategieën, waardoor de trainingskosten worden beperkt tot 12 dagen op 64 H100 GPU's, wat slechts 1% is van de kosten van MovieGen. Gezien de lage kosten behaalt SANA-Video een competitieve prestaties vergeleken met moderne state-of-the-art kleine diffusiemodellen (bijv. Wan 2.1-1.3B en SkyReel-V2-1.3B) terwijl het 16x sneller is in gemeten latentie. Bovendien kan SANA-Video worden ingezet op RTX 5090 GPU's met NVFP4-precisie, waardoor de inferentiesnelheid voor het genereren van een 5 seconden durende 720p-video wordt versneld van 71s naar 29s (2,4x versnelling). Kortom, SANA-Video maakt kosteneffectieve, hoogwaardige videogeneratie mogelijk.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.