MWM: Modelli Mondiali Mobili per la Previsione Consistente Condizionata all'Azione

Abstract

I modelli del mondo consentono la pianificazione in uno spazio predittivo immaginato, offrendo una struttura promettente per la navigazione embodied. Tuttavia, i modelli del mondo per la navigazione esistenti spesso mancano di consistenza condizionata all'azione, pertanto previsioni visivamente plausibili possono comunque divergere durante il rollout multi-step e degradare la pianificazione. Inoltre, un dispiegamento efficiente richiede inferenza diffusion con pochi step, ma i metodi di distillazione esistenti non preservano esplicitamente la consistenza del rollout, creando una discrepanza tra addestramento e inferenza. Per affrontare queste sfide, proponiamo MWM, un modello del mondo mobile per la navigazione a obiettivo immagine basata sulla pianificazione. Nello specifico, introduciamo una struttura di addestramento in due fasi che combina il pre-addestramento strutturale con un post-addestramento di Consistenza Condizionata all'Azione (ACC) per migliorare la consistenza del rollout condizionato all'azione. Introduciamo inoltre la Distillazione di Stato Consistente per l'Inferenza (ICSD) per la distillazione diffusion a pochi step con una migliorata consistenza del rollout. I nostri esperimenti su benchmark e compiti del mondo reale dimostrano miglioramenti consistenti nella fedeltà visiva, accuratezza della traiettoria, successo della pianificazione ed efficienza inferenziale. Codice: https://github.com/AIGeeksGroup/MWM. Sito web: https://aigeeksgroup.github.io/MWM.

English

World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.

MWM: Modelli Mondiali Mobili per la Previsione Consistente Condizionata all'Azione

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Abstract

Support