SANA-Video: Effiziente Videogenerierung mit Block-Linear-Diffusions-Transformer
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
papers.authors: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
papers.abstract
Wir stellen SANA-Video vor, ein kleines Diffusionsmodell, das effizient Videos mit einer Auflösung von bis zu 720x1280 und einer Länge von bis zu einer Minute erzeugen kann. SANA-Video synthetisiert hochauflösende, qualitativ hochwertige und lange Videos mit starker Text-Video-Ausrichtung bei einer bemerkenswert schnellen Geschwindigkeit, die auf RTX 5090 GPUs einsetzbar ist. Zwei Kernentwürfe gewährleisten unsere effiziente, effektive und lange Videogenerierung: (1) Linear DiT: Wir nutzen lineare Aufmerksamkeit als Kernoperation, die angesichts der großen Anzahl von Tokens, die bei der Videogenerierung verarbeitet werden, effizienter ist als herkömmliche Aufmerksamkeit. (2) Konstant-Speicher-KV-Cache für Block-Lineare Aufmerksamkeit: Wir entwerfen einen blockweisen autoregressiven Ansatz für die lange Videogenerierung, indem wir einen konstanten Speicherzustand verwenden, der aus den kumulativen Eigenschaften der linearen Aufmerksamkeit abgeleitet wird. Dieser KV-Cache bietet dem Linear DiT einen globalen Kontext zu festen Speicherkosten, eliminiert die Notwendigkeit eines traditionellen KV-Caches und ermöglicht eine effiziente, minutenlange Videogenerierung. Darüber hinaus untersuchen wir effektive Datenfilter und Modelltrainingsstrategien, die die Trainingskosten auf 12 Tage auf 64 H100 GPUs reduzieren, was nur 1 % der Kosten von MovieGen entspricht. Aufgrund der geringen Kosten erreicht SANA-Video eine wettbewerbsfähige Leistung im Vergleich zu modernen state-of-the-art kleinen Diffusionsmodellen (z. B. Wan 2.1-1.3B und SkyReel-V2-1.3B), während es 16x schneller in der gemessenen Latenz ist. Darüber hinaus kann SANA-Video auf RTX 5090 GPUs mit NVFP4-Präzision eingesetzt werden, was die Inferenzgeschwindigkeit bei der Erzeugung eines 5-Sekunden-720p-Videos von 71s auf 29s beschleunigt (2,4x Beschleunigung). Zusammenfassend ermöglicht SANA-Video eine kostengünstige, hochwertige Videogenerierung.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.