SANA-WM: Effiziente minutenskalierte Weltmodellierung mit hybridem linearem Diffusion Transformer

Zusammenfassung

Wir stellen SANA-WM vor, ein effizientes Open-Source-Weltmodell mit 2,6 Milliarden Parametern, das nativ für die Erzeugung von einminütigen Videos trainiert wurde und hochauflösende 720p-Videos im Minutenbereich mit präziser Kamerasteuerung synthetisiert. SANA-WM erreicht eine visuelle Qualität, die mit großen industriellen Basislinien wie LingBot-World und HY-WorldPlay vergleichbar ist, bei gleichzeitig deutlich verbesserter Effizienz. Vier Kernentwürfe treiben unsere Architektur an: (1) Hybride lineare Aufmerksamkeit kombiniert bildweise Gated DeltaNet (GDN) mit Softmax-Aufmerksamkeit für speichereffiziente Modellierung langer Kontexte. (2) Die duale Zweig-Kamerasteuerung gewährleistet eine präzise Einhaltung von 6-Freiheitsgrad-Trajektorien. (3) Die zweistufige Generierungspipeline wendet auf die Ausgaben von Stufe 1 einen Langvideo-Verbesserer an, wodurch Qualität und Konsistenz über Sequenzen hinweg verbessert werden. (4) Die robuste Annotationspipeline extrahiert aus öffentlichen Videos genaue metrische 6-Freiheitsgrad-Kameraposen, um qualitativ hochwertige, räumlich-zeitlich konsistente Aktionsbeschriftungen zu erzeugen. Getrieben von diesen Entwürfen demonstriert SANA-WM eine bemerkenswerte Effizienz in Bezug auf Daten, Trainingsrechenleistung und Inferenzhardware: Es verwendet nur 213.000 öffentliche Videoclips mit metrischer Posenüberwachung, schließt das Training in 15 Tagen auf 64 H100 ab und erzeugt jeden 60-Sekunden-Clip auf einer einzelnen GPU; seine destillierte Variante kann auf einer einzelnen RTX 5090 mit NVFP4-Quantisierung eingesetzt werden, um einen 60-sekündigen 720p-Clip in 34 Sekunden zu entrauschen. In unserem Ein-Minuten-Weltmodell-Benchmark zeigt SANA-WM eine stärkere Aktionsbefolgungsgenauigkeit als frühere Open-Source-Basislinien und erreicht eine vergleichbare visuelle Qualität bei 36-fach höherem Durchsatz für skalierbare Weltmodellierung.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.