SANA-WM: Эффективное моделирование мира на минутной шкале с помощью гибридного линейного диффузионного трансформера

Аннотация

Мы представляем SANA-WM — эффективную открытую мировую модель с 2,6 миллиардами параметров, изначально обученную для генерации видео длительностью в одну минуту, синтезирующую высококачественные видео с разрешением 720p и минутной шкалой с точным управлением камерой. SANA-WM достигает визуального качества, сопоставимого с масштабными промышленными базовыми моделями, такими как LingBot-World и HY-WorldPlay, при значительном повышении эффективности. Четыре ключевых компонента лежат в основе нашей архитектуры: (1) Гибридное линейное внимание, объединяющее покадровое Gated DeltaNet (GDN) с softmax-вниманием для эффективного с точки зрения памяти моделирования длинных контекстов. (2) Двухканальное управление камерой обеспечивает точное следование траектории с шестью степенями свободы (6-DoF). (3) Двухэтапный конвейер генерации применяет уточнитель длинных видео к выходам первого этапа, повышая качество и согласованность последовательностей. (4) Надежный конвейер аннотирования извлекает точные метрические позы камеры с 6-DoF из публичных видео для получения высококачественных, пространственно-временных согласованных меток действий. Благодаря этим решениям, SANA-WM демонстрирует выдающуюся эффективность в отношении данных, вычислительных затрат на обучение и оборудования для инференса: она использует всего 213 тысяч публичных видеоклипов с супервизией поз в метрическом масштабе, завершает обучение за 15 дней на 64 H100 и генерирует каждый 60-секундный клип на одном GPU; её дистиллированный вариант может быть развернут на одном RTX 5090 с квантованием NVFP4 для денойзинга 60-секундного клипа 720p за 34 секунды. На нашем эталонном тесте одноминутных мировых моделей SANA-WM демонстрирует более высокую точность следования действиям по сравнению с предыдущими открытыми базовыми моделями и достигает сравнимого визуального качества при в 36 раз более высокой пропускной способности для масштабируемого моделирования мира.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.