ChatPaper.aiChatPaper

MWM: Мобильные мировые модели для согласованного прогнозирования с учетом действий

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

March 8, 2026
Авторы: Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang
cs.AI

Аннотация

Модели мира позволяют осуществлять планирование в предсказанном воображаемом будущем пространстве, предлагая многообещающую основу для навигации в телесном воплощении. Однако существующие модели мира для навигации часто страдают от недостаточной согласованности по условию действия, из-за чего визуально правдоподобные предсказания могут смещаться при многошаговом развертывании и ухудшать качество планирования. Более того, эффективное развертывание требует диффузионного вывода за малое количество шагов, но существующие методы дистилляции явно не сохраняют согласованность развертывания, создавая несоответствие между обучением и выводом. Для решения этих задач мы предлагаем MWM — мобильную модель мира для навигации к цели, заданной изображением, на основе планирования. В частности, мы вводим двухэтапную схему обучения, которая сочетает предварительное обучение структуры с последующим дообучением на Согласованности по Условию Действия (Action-Conditioned Consistency, ACC) для улучшения согласованности развертывания при условии действия. Мы также представляем Дистилляцию Состояний с Согласованностью Вывода (Inference-Consistent State Distillation, ICSD) для дистилляции диффузии за малое число шагов с улучшенной согласованностью развертывания. Наши эксперименты на бенчмарках и реальных задачах демонстрируют стабильное улучшение по визуальному правдоподобию, точности траекторий, успешности планирования и эффективности вывода. Код: https://github.com/AIGeeksGroup/MWM. Веб-сайт: https://aigeeksgroup.github.io/MWM.
English
World models enable planning in imagined future predicted space, offering a promising framework for embodied navigation. However, existing navigation world models often lack action-conditioned consistency, so visually plausible predictions can still drift under multi-step rollout and degrade planning. Moreover, efficient deployment requires few-step diffusion inference, but existing distillation methods do not explicitly preserve rollout consistency, creating a training-inference mismatch. To address these challenges, we propose MWM, a mobile world model for planning-based image-goal navigation. Specifically, we introduce a two-stage training framework that combines structure pretraining with Action-Conditioned Consistency (ACC) post-training to improve action-conditioned rollout consistency. We further introduce Inference-Consistent State Distillation (ICSD) for few-step diffusion distillation with improved rollout consistency. Our experiments on benchmark and real-world tasks demonstrate consistent gains in visual fidelity, trajectory accuracy, planning success, and inference efficiency. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
PDF02March 16, 2026