Modelagem Unificada de Ação no Mundo 4D a partir de Priores de Vídeo com Dessincronização Assíncrona

Resumo

Propomos o X-WAM, um Modelo Mundial 4D Unificado que unifica a execução de ações robóticas em tempo real e a síntese de mundos 4D de alta fidelidade (vídeo + reconstrução 3D) em um único framework, superando as limitações críticas de modelos mundiais unificados anteriores (por exemplo, UWM) que apenas modelam o espaço de pixels 2D e não conseguem equilibrar a eficiência de ação e a qualidade da modelagem mundial. Para aproveitar os fortes *priors* visuais de modelos de difusão de vídeo pré-treinados, o X-WAM imagina o mundo futuro prevendo vídeos RGB-D multi-visão e obtém informações espaciais de forma eficiente através de uma adaptação estrutural leve: replicando os últimos blocos do *Diffusion Transformer* pré-treinado em um ramo dedicado à previsão de profundidade para a reconstrução da informação espacial futura. Além disso, propomos a Amostragem de Ruído Assíncrona (ANS) para otimizar conjuntamente a qualidade da geração e a eficiência da decodificação de ações. A ANS aplica um cronograma de remoção de ruído assíncrono especializado durante a inferência, que decodifica ações rapidamente com menos passos para permitir uma execução eficiente em tempo real, enquanto dedica a sequência completa de passos para gerar vídeo de alta fidelidade. Em vez de desacoplar totalmente os *timesteps* durante o treinamento, a ANS amostra da sua distribuição conjunta para se alinhar com a distribuição de inferência. Pré-treinado com mais de 5.800 horas de dados robóticos, o X-WAM atinge taxas médias de sucesso de 79,2% e 90,7% nos *benchmarks* RoboCasa e RoboTwin 2.0, enquanto produz reconstrução e geração 4D de alta fidelidade, superando os métodos existentes em métricas visuais e geométricas.

English

We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.

Modelagem Unificada de Ação no Mundo 4D a partir de Priores de Vídeo com Dessincronização Assíncrona

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Resumo

Support