SANA-WM: Modelado eficiente del mundo a escala de minutos con Transformer de Difusión Lineal Híbrido

Resumen

Presentamos SANA-WM, un modelo del mundo eficiente de código abierto con 2.6 mil millones de parámetros, entrenado de forma nativa para la generación de un minuto, capaz de sintetizar videos de alta fidelidad en 720p y duración de un minuto con control preciso de cámara. SANA-WM alcanza una calidad visual comparable a la de referencias industriales a gran escala como LingBot-World y HY-WorldPlay, mejorando significativamente la eficiencia. Cuatro diseños centrales impulsan nuestra arquitectura: (1) Atención Lineal Híbrida, que combina Gated DeltaNet (GDN) por fotograma con atención softmax para el modelado eficiente de contextos largos en términos de memoria. (2) Control de Cámara de Doble Ramal, que asegura una adherencia precisa a la trayectoria de 6 grados de libertad (6-GDL). (3) Pipeline de Generación en Dos Etapas, que aplica un refinador de video largo a las salidas de la primera etapa, mejorando la calidad y la consistencia a lo largo de las secuencias. (4) Pipeline de Anotación Robusta, que extrae poses de cámara precisas a escala métrica de 6-GDL a partir de videos públicos para generar etiquetas de acción de alta calidad, espaciotemporalmente consistentes. Impulsado por estos diseños, SANA-WM demuestra una eficiencia notable en datos, cómputo de entrenamiento y hardware de inferencia: utiliza solo aproximadamente 213 mil clips de video públicos con supervisión de pose a escala métrica, completa el entrenamiento en 15 días en 64 H100, y genera cada clip de 60 segundos en una sola GPU; su variante destilada puede implementarse en una sola RTX 5090 con cuantificación NVFP4 para eliminar el ruido de un clip de 720p de 60 segundos en 34 segundos. En nuestro punto de referencia de modelos del mundo de un minuto, SANA-WM demuestra una precisión de seguimiento de acciones superior a la de los competidores de código abierto previos y alcanza una calidad visual comparable con un rendimiento 36 veces mayor para un modelado del mundo escalable.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.