Modélisation unifiée de l'action dans un monde 4D à partir de pré-entraînements vidéo avec débruitage asynchrone

Résumé

Nous proposons X-WAM, un Modèle de Monde 4D Unifié qui intègre l'exécution d'actions robotiques en temps réel et la synthèse de mondes 4D de haute fidélité (vidéo + reconstruction 3D) dans un cadre unique, surmontant les limitations critiques des modèles de monde unifiés antérieurs (par exemple, UWM) qui se limitent à modéliser l'espace pixel 2D et échouent à équilibrer l'efficacité des actions et la qualité de la modélisation du monde. Pour exploiter les fortes connaissances préalables visuelles des modèles de diffusion vidéo pré-entraînés, X-WAM imagine le monde futur en prédisant des vidéos RGB-D multi-vues, et obtient efficacement l'information spatiale via une adaptation structurelle légère : la réplication des derniers blocs du Transformer à Diffusion pré-entraîné dans une branche dédiée à la prédiction de profondeur pour la reconstruction de l'information spatiale future. De plus, nous proposons l'Échantillonnage de Bruit Asynchrone (ANS) pour optimiser conjointement la qualité de génération et l'efficacité du décodage des actions. ANS applique un plan de bruitage-débruitage asynchrone spécialisé lors de l'inférence, qui décode rapidement les actions avec moins d'étapes pour permettre une exécution en temps réel efficace, tout en consacrant la séquence complète d'étapes à générer une vidéo de haute fidélité. Plutôt que de découpler entièrement les pas de temps pendant l'entraînement, ANS échantillonne à partir de leur distribution conjointe pour s'aligner sur la distribution d'inférence. Pré-entraîné sur plus de 5 800 heures de données robotiques, X-WAM atteint des taux de réussite moyens de 79,2 % et 90,7 % sur les benchmarks RoboCasa et RoboTwin 2.0, tout en produisant une reconstruction et une génération 4D de haute fidélité surpassant les méthodes existantes à la fois sur les métriques visuelles et géométriques.

English

We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.

Modélisation unifiée de l'action dans un monde 4D à partir de pré-entraînements vidéo avec débruitage asynchrone

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Résumé

Support