SANA-WM: Efficiënte wereldmodellering op minuutskaal met hybride lineaire diffusie transformer

Samenvatting

We introduceren SANA-WM, een efficiënt opensource wereldmodel met 2,6 miljard parameters dat oorspronkelijk is getraind voor generatie van één minuut, en hifi-, 720p-, minuutlange video's synthetiseert met nauwkeurige camerabesturing. SANA-WM behaalt visuele kwaliteit vergelijkbaar met grootschalige industriële basislijnen zoals LingBot-World en HY-WorldPlay, terwijl de efficiëntie aanzienlijk wordt verbeterd. Vier kerntoepassingen drijven onze architectuur: (1) Hybride lineaire aandacht combineert framewijze Gated DeltaNet (GDN) met softmax-aandacht voor geheugenefficiënte modellering van lange contexten. (2) Tweevoudige camerabesturing zorgt voor nauwkeurige naleving van het 6-vrijheidsgradentraject. (3) Tweefasegeneratiepijplijn past een langevideo-verfijner toe op de uitvoer van fase 1, waardoor de kwaliteit en consistentie over sequenties worden verbeterd. (4) Robuuste annotatiepijplijn extraheert nauwkeurige metrische 6-vrijheidsgraden cameraposes uit openbare video's om hoogwaardige, spatiotemporeel consistente actielabels te verkrijgen. Gedreven door deze ontwerpen toont SANA-WM opmerkelijke efficiëntie in data, training en inferentiehardware: het gebruikt slechts 213.000 openbare videoclips met metrische pose-supervisie, voltooit training in 15 dagen op 64 H100's en genereert elke clip van 60 seconden op een enkele GPU; de gedistilleerde variant kan worden ingezet op een enkele RTX 5090 met NVFP4-kwantificatie om in 34 seconden ruis te verwijderen uit een 720p-clip van 60 seconden. Op onze benchmark voor minuutlange wereldmodellen toont SANA-WM een sterkere actievolgnauwkeurigheid dan eerdere opensource basislijnen en behaalt vergelijkbare visuele kwaliteit bij een 36× hogere doorvoersnelheid voor schaalbaar wereldmodelleren.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.