Мировая модель для обучения роботов: всесторонний обзор
World Model for Robot Learning: A Comprehensive Survey
April 30, 2026
Авторы: Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
cs.AI
Аннотация
Модели мира, представляющие собой прогностические представления того, как среда развивается под воздействием действий, стали центральным компонентом обучения роботов. Они поддерживают обучение политик, планирование, симуляцию, оценку и генерацию данных, а также значительно продвинулись вперед благодаря росту фундаментальных моделей и крупномасштабной генерации видео. Однако литература остается фрагментированной по архитектурам, функциональным ролям и воплощенным прикладным областям. Чтобы восполнить этот пробел, мы представляем всесторонний обзор моделей мира с точки зрения обучения роботов. Мы рассматриваем, как модели мира связаны с политиками роботов, как они служат обученными симуляторами для обучения с подкреплением и оценки, а также как роботизированные видеомодели мира продвинулись от генерации на основе воображения к управляемым, структурированным формулировкам масштаба фундаментальных моделей. Мы также связываем эти идеи с навигацией и автономным вождением, обобщая репрезентативные наборы данных, бенчмарки и протоколы оценки. В целом, данный обзор систематически рассматривает быстро растущую литературу по моделям мира для обучения роботов, проясняет ключевые парадигмы и применения, а также освещает основные проблемы и будущие направления прогностического моделирования в воплощенных агентах. Для облегчения постоянного доступа к новым работам, бенчмаркам и ресурсам мы будем поддерживать и регулярно обновлять сопутствующий репозиторий GitHub вместе с этим обзором.
English
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.