MWM: Modelos Mundiales Móviles para la Predicción Consistente Condicionada por Acciones
MWM: Mobile World Models for Action-Conditioned Consistent Prediction
March 8, 2026
Autores: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang
cs.AI
Resumen
Los modelos de mundo permiten planificar en un espacio futuro predicho e imaginado, ofreciendo un marco prometedor para la navegación corporeizada. Sin embargo, los modelos de mundo de navegación existentes a menudo carecen de consistencia condicionada por la acción, por lo que las predicciones visualmente plausibles pueden desviarse durante el despliegue multi-paso y degradar la planificación. Además, un despliegue eficiente requiere una inferencia de difusión en pocos pasos, pero los métodos de destilación existentes no preservan explícitamente la consistencia del despliegue, creando una discrepancia entre el entrenamiento y la inferencia. Para abordar estos desafíos, proponemos MWM, un modelo de mundo móvil para la navegación hacia un objetivo basada en imágenes y planificación. Específicamente, introducimos un marco de entrenamiento en dos etapas que combina el pre-entrenamiento de estructuras con un post-entrenamiento de Consistencia Condicionada por la Acción (ACC) para mejorar la consistencia del despliegue condicionado por la acción. Además, introducimos la Destilación de Estado Consistente en Inferencia (ICSD) para la destilación de difusión en pocos pasos con una consistencia de despliegue mejorada. Nuestros experimentos en tareas de referencia y del mundo real demuestran mejoras consistentes en fidelidad visual, precisión de trayectorias, éxito de la planificación y eficiencia de inferencia. Código: https://github.com/AIGeeksGroup/MWM. Sitio web: https://aigeeksgroup.github.io/MWM.
English
World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.