MWM : Modèles du monde mobiles pour la prédiction cohérente conditionnée par l'action
MWM: Mobile World Models for Action-Conditioned Consistent Prediction
March 8, 2026
Auteurs: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang
cs.AI
Résumé
Les modèles du monde permettent la planification dans un espace prédictif imaginé, offrant un cadre prometteur pour la navigation incarnée. Cependant, les modèles du monde existants pour la navigation manquent souvent de cohérence conditionnée par l'action, de sorte que des prédictions visuellement plausibles peuvent dériver lors du déploiement multi-étapes et dégrader la planification. De plus, un déploiement efficace nécessite une inférence par diffusion en peu d'étapes, mais les méthodes de distillation existantes ne préservent pas explicitement la cohérence du déploiement, créant un décalage entre l'entraînement et l'inférence. Pour relever ces défis, nous proposons MWM, un modèle du monde mobile pour la navigation par objectif visuel basée sur la planification. Plus précisément, nous introduisons un cadre d'entraînement en deux étapes combinant un pré-entraînement structurel avec un post-entraînement par Cohérence Conditionnée par l'Action (ACC) pour améliorer la cohérence du déploiement conditionné par l'action. Nous introduisons en outre la Distillation d'État Cohérente à l'Inférence (ICSD) pour une distillation par diffusion en peu d'étapes avec une meilleure cohérence du déploiement. Nos expériences sur des benchmarks et des tâches en conditions réelles démontrent des gains constants en fidélité visuelle, précision de trajectoire, succès de la planification et efficacité de l'inférence. Code : https://github.com/AIGeeksGroup/MWM. Site web : https://aigeeksgroup.github.io/MWM.
English
World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.