SANA-WM: 하이브리드 선형 확산 트랜스포머를 이용한 효율적인 분 단위 세계 모델링
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
May 14, 2026
저자: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie
cs.AI
초록
우리는 SANA-WM을 소개한다. 이는 효율적인 26억 파라미터의 오픈소스 월드 모델로, 1분짜리 생성에 특화되어 학습되었으며, 정밀한 카메라 제어를 통해 고충실도 720p 분 단위 비디오를 합성한다. SANA-WM은 LingBot-World 및 HY-WorldPlay와 같은 대규모 산업 벤치마크와 견줄 만한 시각적 품질을 달성하면서도 효율성을 크게 향상시킨다. 네 가지 핵심 설계가 아키텍처를 구성한다: (1) 하이브리드 선형 어텐션(Hybrid Linear Attention)은 프레임별 Gated DeltaNet(GDN)과 소프트맥스 어텐션을 결합하여 메모리 효율적인 장기 컨텍스트 모델링을 수행한다. (2) 이중 분기 카메라 제어(Dual-Branch Camera Control)는 정밀한 6자유도 궤적 추종을 보장한다. (3) 2단계 생성 파이프라인(Two-Stage Generation Pipeline)은 1단계 출력에 장기 비디오 정제기를 적용하여 시퀀스 전반의 품질과 일관성을 향상시킨다. (4) 강건한 주석 파이프라인(Robust Annotation Pipeline)은 공개 비디오에서 정확한 미터 스케일 6자유도 카메라 포즈를 추출하여 고품질의 시공간적으로 일관된 액션 레이블을 생성한다. 이러한 설계에 힘입어 SANA-WM은 데이터, 학습 연산 및 추론 하드웨어 전반에서 놀라운 효율성을 보여준다. 미터 스케일 포즈 지도 학습을 통해 약 213K개의 공개 비디오 클립만을 사용하며, 64대의 H100에서 15일 만에 학습을 완료하고, 각 60초 클립을 단일 GPU에서 생성한다. 증류된 변종은 NVFP4 양자화를 적용한 단일 RTX 5090에 배포되어 60초 720p 클립을 34초 만에 잡음 제거할 수 있다. 당사의 1분 월드 모델 벤치마크에서 SANA-WM은 기존 오픈소스 기준선보다 더 강력한 액션 추종 정확도를 보여주며, 확장 가능한 월드 모델링을 위해 36배 더 높은 처리량에서 비교 가능한 시각적 품질을 달성한다.
English
We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.