ChatPaper.aiChatPaper

로봇 학습을 위한 세계 모델: 종합 서베이

World Model for Robot Learning: A Comprehensive Survey

April 30, 2026
저자: Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
cs.AI

초록

세계 모델(World models)은 행동에 따라 환경이 어떻게 진화하는지에 대한 예측적 표현으로, 로봇 학습의 핵심 구성 요소가 되었다. 이는 정책 학습, 계획, 시뮬레이션, 평가, 데이터 생성을 지원하며, 기초 모델(foundation models)과 대규모 비디오 생성의 부상과 함께 빠르게 발전해 왔다. 그러나 관련 문헌은 아키텍처, 기능적 역할, 그리고 구현된 응용 도메인 전반에 걸쳐 파편화된 상태로 남아 있다. 이러한 격차를 해소하기 위해, 우리는 로봇 학습 관점에서 세계 모델에 대한 포괄적인 리뷰를 제시한다. 세계 모델이 로봇 정책과 어떻게 결합되는지, 강화 학습 및 평가를 위한 학습된 시뮬레이터로서 어떻게 기능하는지, 그리고 로봇 비디오 세계 모델이 상상 기반 생성에서 제어 가능하고 구조화된 기초 규모의 정식화로 어떻게 발전해 왔는지를 검토한다. 나아가 이러한 개념을 내비게이션 및 자율주행과 연결하고, 대표적인 데이터셋, 벤치마크, 평가 프로토콜을 요약한다. 전반적으로, 본 설문조사는 로봇 학습을 위한 세계 모델에 관한 급속히 성장하는 문헌을 체계적으로 검토하고, 핵심 패러다임과 응용을 명확히 하며, 구현된 에이전트에서 예측 모델링의 주요 과제와 미래 방향을 강조한다. 새롭게 등장하는 연구, 벤치마크 및 리소스에 대한 지속적인 접근을 용이하게 하기 위해, 본 설문조사와 함께 관련 GitHub 저장소를 유지 관리하고 정기적으로 업데이트할 예정이다.
English
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.
PDF122May 14, 2026