Modèle du monde pour l'apprentissage robotique : une revue exhaustive
World Model for Robot Learning: A Comprehensive Survey
April 30, 2026
Auteurs: Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
cs.AI
Résumé
Les modèles du monde, c'est-à-dire des représentations prédictives de l'évolution des environnements sous l'effet des actions, sont devenus un composant central de l'apprentissage robotique. Ils soutiennent l'apprentissage des politiques, la planification, la simulation, l'évaluation, la génération de données et ont progressé rapidement avec l'essor des modèles fondamentaux et de la génération vidéo à grande échelle. Cependant, la littérature reste fragmentée entre les architectures, les rôles fonctionnels et les domaines d'application incarnés. Pour combler cette lacune, nous présentons une revue complète des modèles du monde dans une perspective d'apprentissage robotique. Nous examinons comment les modèles du monde sont couplés aux politiques robotiques, comment ils servent de simulateurs appris pour l'apprentissage par renforcement et l'évaluation, et comment les modèles du monde vidéo robotiques ont progressé de la génération basée sur l'imagination à des formulations contrôlables, structurées et à l'échelle des modèles fondamentaux. Nous relions également ces idées à la navigation et à la conduite autonome, et résumons les ensembles de données, les références et les protocoles d'évaluation représentatifs. Dans l'ensemble, cette revue systématique examine la littérature en pleine croissance sur les modèles du monde pour l'apprentissage robotique, clarifie les paradigmes et applications clés, et met en évidence les principaux défis et orientations futures pour la modélisation prédictive dans les agents incarnés. Pour faciliter un accès continu aux travaux, références et ressources émergents, nous maintiendrons et mettrons régulièrement à jour le référentiel GitHub d'accompagnement parallèlement à cette revue.
English
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.