SANA-WM: Modelagem Eficiente de Mundo em Escala de Minutos com Transformer Híbrido de Difusão Linear

Resumo

Apresentamos o SANA-WM, um modelo de mundo eficiente, de código aberto e com 2,6 bilhões de parâmetros, treinado nativamente para geração de um minuto, sintetizando vídeos de alta fidelidade em 720p e escala de minutos com controle preciso de câmera. O SANA-WM atinge qualidade visual comparável a referências industriais de grande escala, como LingBot-World e HY-WorldPlay, enquanto melhora significativamente a eficiência. Quatro componentes fundamentais orientam nossa arquitetura: (1) Atenção Linear Híbrida combina Gated DeltaNet (GDN) por quadro com atenção softmax para modelagem eficiente de contexto longo em memória. (2) Controle de Câmera de Ramo Duplo garante aderência precisa à trajetória de 6 Graus de Liberdade (6-DoF). (3) Pipeline de Geração em Dois Estágios aplica um refinador de vídeos longos às saídas do estágio 1, melhorando a qualidade e a consistência entre sequências. (4) Pipeline de Anotação Robusta extrai poses de câmera precisas em escala métrica de 6-DoF a partir de vídeos públicos, gerando rótulos de ação de alta qualidade e consistentes no espaço-tempo. Impulsionado por esses projetos, o SANA-WM demonstra eficiência notável em dados, computação de treinamento e hardware de inferência: utiliza apenas 213 mil clipes de vídeo públicos com supervisão de pose em escala métrica, conclui o treinamento em 15 dias em 64 H100s e gera cada clipe de 60 segundos em uma única GPU; sua variante destilada pode ser implantada em uma única RTX 5090 com quantização NVFP4 para remover ruído de um clipe de 720p com 60 segundos em 34 segundos. Em nosso benchmark de modelo de mundo de um minuto, o SANA-WM demonstra precisão de seguimento de ação superior às referências anteriores de código aberto e atinge qualidade visual comparável com uma taxa de transferência 36 vezes maior para modelagem de mundo escalável.

English

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only sim213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36times higher throughput for scalable world modeling.