MWM: Modelos de Mundo Móvel para Previsão Consciente Condicionada por Ação

Resumo

Os modelos de mundo permitem o planeamento num espaço futuro previsto e imaginado, oferecendo uma estrutura promissora para a navegação incorporada. No entanto, os modelos de mundo de navegação existentes carecem frequentemente de consistência condicionada por ação, pelo que previsões visualmente plausíveis podem ainda desviar-se sob rollouts multi-etapa e degradar o planeamento. Além disso, uma implementação eficiente requer inferência por difusão em poucas etapas, mas os métodos de destilação existentes não preservam explicitamente a consistência do rollout, criando uma discrepância entre treino e inferência. Para enfrentar estes desafios, propomos o MWM, um modelo de mundo móvel para navegação por objetivo de imagem baseada em planeamento. Especificamente, introduzimos uma estrutura de treino em duas fases que combina pré-treino de estrutura com pós-treino de Consistência Condicionada por Ação (ACC) para melhorar a consistência do rollout condicionado por ação. Introduzimos ainda a Destilação de Estado Consistente com a Inferência (ICSD) para destilação por difusão em poucas etapas com uma consistência de rollout melhorada. As nossas experiências em tarefas de benchmark e do mundo real demonstram ganhos consistentes em fidelidade visual, precisão da trajetória, sucesso do planeamento e eficiência da inferência. Código: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.

English

World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.