MWM: Mobile World Models für aktionsbedingte konsistente Vorhersage
MWM: Mobile World Models for Action-Conditioned Consistent Prediction
March 8, 2026
Autoren: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang
cs.AI
Zusammenfassung
Weltmodelle ermöglichen Planung im vorhergesagten imaginären Zukunftsraum und bieten einen vielversprechenden Rahmen für verkörpertes Navigieren. Allerdings fehlt es bestehenden Navigationsweltmodellen oft an aktionskonditionierter Konsistenz, sodass visuell plausible Vorhersagen bei mehrstufiger Abfolge dennoch abdriften und die Planung beeinträchtigen können. Zudem erfordert ein effizienter Einsatz wenigstufige Diffusionsinferenz, aber bestehende Destillationsmethoden bewahren die Abfolgekonsistenz nicht explizit, was zu einer Trainings-Inferenz-Diskrepanz führt. Um diese Herausforderungen zu adressieren, schlagen wir MWM vor, ein mobiles Weltmodell für planungsbasierte Bildzielnavigation. Konkret führen wir einen zweistufigen Trainingsrahmen ein, der Struktur-Pretraining mit aktionskonditionierter Konsistenz (ACC) als Nachbereitung kombiniert, um die aktionskonditionierte Abfolgekonsistenz zu verbessern. Weiterhin führen wir Inferenz-konsistente Zustandsdestillation (ICSD) für wenigstufige Diffusionsdestillation mit verbesserter Abfolgekonsistenz ein. Unsere Experimente mit Benchmark- und realen Aufgaben demonstrieren konsistente Verbesserungen in visueller Qualität, Trajektoriengenauigkeit, Planungserfolg und Inferenzeffizienz. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
English
World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.