ChatPaper.aiChatPaper

SANA-WM: ハイブリッド線形拡散トランスフォーマーを用いた効率的な分スケール世界モデリング

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

May 14, 2026
著者: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
cs.AI

要旨

我々は、高効率な2.6Bパラメータのオープンソースワールドモデル「SANA-WM」を導入する。本モデルは1分間の生成をネイティブに学習し、高精細で720p、分単位のビデオを精密なカメラ制御とともに合成する。SANA-WMは、LingBot-WorldやHY-WorldPlayといった大規模産業ベースラインに匹敵する画質を達成しつつ、効率を大幅に向上させる。アーキテクチャは4つの核心的設計に基づく。(1) ハイブリッド線形注意機構:フレーム単位のGated DeltaNetとソフトマックス注意を組み合わせ、メモリ効率の高い長距離コンテキストモデリングを実現。(2) デュアルブランチカメラ制御:正確な6自由度軌跡の追従を保証。(3) 2段階生成パイプライン:ステージ1の出力に長ビデオリファイナーを適用し、シーケンス全体の品質と一貫性を向上。(4) 堅牢なアノテーションパイプライン:公開ビデオから正確なメートルスケールの6自由度カメラポーズを抽出し、高品質で時空間的に一貫したアクションラベルを生成。これらの設計により、SANA-WMはデータ、学習計算リソース、推論ハードウェアにおいて顕著な効率性を示す。メートルスケールのポーズ教師データを用いた約21万3千本の公開ビデオクリップのみを使用し、学習は64基のH100 GPUで15日間で完了、各60秒クリップの生成は単一GPU上で実行可能。蒸留版では、NVFP4量子化により単一のRTX 5090上で60秒の720pクリップを34秒でノイズ除去できる。我々の1分間ワールドモデルベンチマークにおいて、SANA-WMは既存のオープンソースベースラインよりも高いアクション追従精度を示し、同等の画質を36倍のスループットで達成し、スケーラブルなワールドモデリングを実現する。
English
We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.