ロボット学習のための世界モデル:包括的サーベイ
World Model for Robot Learning: A Comprehensive Survey
April 30, 2026
著者: Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
cs.AI
要旨
世界モデルは、行動に応じて環境がどのように変化するかの予測表現であり、ロボット学習の中核的な構成要素となっている。これらはポリシー学習、計画、シミュレーション、評価、データ生成を支援し、基礎モデルや大規模動画生成の台頭とともに急速に進展してきた。しかしながら、関連文献はアーキテクチャ、機能的な役割、身体性応用領域にわたって断片化されたままである。このギャップを埋めるため、本稿ではロボット学習の観点から世界モデルに関する包括的なレビューを提示する。世界モデルがロボットポリシーとどのように結合されるか、強化学習や評価のための学習されたシミュレーターとしてどのように機能するか、そしてロボットビデオ世界モデルが想像ベース生成から制御可能、構造化、基礎スケールの定式化へとどのように進展してきたかを検討する。さらに、これらの概念をナビゲーションや自動運転に結び付け、代表的なデータセット、ベンチマーク、評価プロトコルを要約する。全体として、本調査はロボット学習のための世界モデルに関する急速に成長する文献を体系的にレビューし、主要なパラダイムと応用を明確にし、身体性エージェントにおける予測モデリングの主要な課題と今後の方向性を浮き彫りにする。新たに出現する研究、ベンチマーク、リソースへの継続的なアクセスを容易にするため、本調査と併せて関連するGitHubリポジトリを維持・定期的に更新する予定である。
English
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.