ChatPaper.aiChatPaper

SANA-Video : Génération efficace de vidéos avec un transformateur à diffusion linéaire par blocs

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

September 29, 2025
papers.authors: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI

papers.abstract

Nous présentons SANA-Video, un petit modèle de diffusion capable de générer efficacement des vidéos jusqu'à une résolution de 720x1280 et d'une durée d'une minute. SANA-Video synthétise des vidéos haute résolution, de haute qualité et de longue durée avec un fort alignement texte-vidéo à une vitesse remarquablement rapide, déployable sur une GPU RTX 5090. Deux conceptions clés assurent notre génération de vidéos efficaces, performantes et longues : (1) Linear DiT : Nous exploitons l'attention linéaire comme opération centrale, qui est plus efficace que l'attention classique compte tenu du grand nombre de tokens traités dans la génération de vidéos. (2) Cache KV à mémoire constante pour l'attention linéaire par blocs : nous concevons une approche autorégressive par blocs pour la génération de vidéos longues en utilisant un état à mémoire constante, dérivé des propriétés cumulatives de l'attention linéaire. Ce cache KV fournit au Linear DiT un contexte global à un coût mémoire fixe, éliminant le besoin d'un cache KV traditionnel et permettant une génération de vidéos d'une minute efficace. De plus, nous explorons des filtres de données efficaces et des stratégies d'entraînement du modèle, réduisant le coût d'entraînement à 12 jours sur 64 GPU H100, ce qui représente seulement 1 % du coût de MovieGen. Grâce à son faible coût, SANA-Video atteint des performances compétitives par rapport aux modèles de diffusion modernes de pointe (par exemple, Wan 2.1-1.3B et SkyReel-V2-1.3B) tout en étant 16 fois plus rapide en latence mesurée. Par ailleurs, SANA-Video peut être déployé sur des GPU RTX 5090 avec une précision NVFP4, accélérant la vitesse d'inférence pour générer une vidéo 720p de 5 secondes de 71s à 29s (accélération de 2,4x). En résumé, SANA-Video permet une génération de vidéos de haute qualité à faible coût.
English
We introduce SANA-Video, a small diffusion model that can efficiently generate videos up to 720x1280 resolution and minute-length duration. SANA-Video synthesizes high-resolution, high-quality and long videos with strong text-video alignment at a remarkably fast speed, deployable on RTX 5090 GPU. Two core designs ensure our efficient, effective and long video generation: (1) Linear DiT: We leverage linear attention as the core operation, which is more efficient than vanilla attention given the large number of tokens processed in video generation. (2) Constant-Memory KV cache for Block Linear Attention: we design block-wise autoregressive approach for long video generation by employing a constant-memory state, derived from the cumulative properties of linear attention. This KV cache provides the Linear DiT with global context at a fixed memory cost, eliminating the need for a traditional KV cache and enabling efficient, minute-long video generation. In addition, we explore effective data filters and model training strategies, narrowing the training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of MovieGen. Given its low cost, SANA-Video achieves competitive performance compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover, SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x speedup). In summary, SANA-Video enables low-cost, high-quality video generation.
PDF352September 30, 2025