SANA-WM : Modélisation efficace du monde à l'échelle de la minute avec un transformateur hybride de diffusion linéaire

Résumé

Nous présentons SANA-WM, un modèle du monde open-source efficace de 2,6 milliards de paramètres, entraîné nativement pour la génération de séquences d’une minute, capable de synthétiser des vidéos haute fidélité en 720p à l’échelle de la minute avec un contrôle précis de la caméra. SANA-WM atteint une qualité visuelle comparable à celle des références industrielles de grande envergure telles que LingBot-World et HY-WorldPlay, tout en améliorant significativement l’efficacité. Quatre conceptions centrales animent notre architecture : (1) l’attention linéaire hybride combine un Gated DeltaNet (GDN) par trame avec une attention softmax pour une modélisation efficace de contextes longs sous contrainte mémoire ; (2) le contrôle de caméra à double branche garantit un suivi précis des trajectoires à 6 degrés de liberté ; (3) le pipeline de génération en deux étapes applique un raffineur de vidéos longues aux sorties de l’étape 1, améliorant la qualité et la cohérence entre les séquences ; (4) le pipeline d’annotation robuste extrait des poses de caméra précises à l’échelle métrique à 6 degrés de liberté à partir de vidéos publiques, produisant des étiquettes d’action de haute qualité, cohérentes spatio-temporellement. Grâce à ces conceptions, SANA-WM démontre une efficacité remarquable en termes de données, de puissance de calcul pour l’entraînement et de matériel d’inférence : il n’utilise qu’environ 213 000 clips vidéo publics avec supervision de pose à l’échelle métrique, termine l’entraînement en 15 jours sur 64 H100, et génère chaque clip de 60 secondes sur un seul GPU ; sa variante distillée peut être déployée sur un unique RTX 5090 avec quantification NVFP4 pour débruité un clip 720p de 60 secondes en 34 secondes. Sur notre benchmark de modèle du monde à une minute, SANA-WM démontre une meilleure précision de suivi d’action que les références open-source précédentes et atteint une qualité visuelle comparable avec un débit 36 fois supérieur pour une modélisation du monde scalable.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.