ChatPaper.aiChatPaper

MWM: Mobiele Wereldmodellen voor Actie-Gebonden Consistente Voorspelling

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

March 8, 2026
Auteurs: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang
cs.AI

Samenvatting

Wereldmodellen maken planning mogelijk in een voorspelde, denkbeeldige toekomstige ruimte, en bieden zo een veelbelovend raamwerk voor belichaamde navigatie. Bestaande navigatiewereldmodellen missen echter vaak actie-geconditioneerde consistentie, waardoor visueel plausibele voorspellingen bij multi-step roll-out kunnen afdrijven en de planning verslechteren. Bovendien vereist efficiënte inzet inferentie met weinig diffusiestappen, maar bestaande distillatiemethoden behouden de roll-outconsistentie niet expliciet, wat een kloof tussen training en inferentie creëert. Om deze uitdagingen aan te pakken, stellen we MWM voor, een mobiel wereldmodel voor planning-gebaseerde beelddoelnavigatie. Concreet introduceren we een tweefasen-trainingsraamwerk dat structuurpretraining combineert met Actie-Geconditioneerde Consistentie (ACC) na-training om de actie-geconditioneerde roll-outconsistentie te verbeteren. Verder introduceren we Inference-Consistent State Distillation (ICSD) voor diffusiedistillatie met weinig stappen en verbeterde roll-outconsistentie. Onze experimenten op benchmark- en real-world taken tonen consistente verbeteringen aan in visuele kwaliteit, trajectnauwkeurigheid, planningssucces en inferentie-efficiëntie. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
English
World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
PDF02March 26, 2026