ChatPaper.aiChatPaper

Weltmodell für das Roboterlernen: Eine umfassende Übersicht

World Model for Robot Learning: A Comprehensive Survey

April 30, 2026
Autoren: Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong Leng, Haoran Geng, Yanjie Ze, Tatsuya Harada, Philip Torr, Oier Mees, Marc Pollefeys, Zhuang Liu, Jiajun Wu, Pieter Abbeel, Jitendra Malik, Yilun Du, Jianfei Yang
cs.AI

Zusammenfassung

Weltmodelle, die prädiktive Repräsentationen davon darstellen, wie sich Umgebungen unter Handlungen entwickeln, sind zu einer zentralen Komponente des Roboterlernens geworden. Sie unterstützen das Politiklernen, die Planung, Simulation, Evaluierung, Datengenerierung und haben sich mit dem Aufkommen von Basismodellen und groß angelegter Videogenerierung rasant weiterentwickelt. Allerdings bleibt die Literatur fragmentiert über Architekturen, funktionale Rollen und verkörperte Anwendungsdomänen hinweg. Um diese Lücke zu schließen, präsentieren wir einen umfassenden Überblick über Weltmodelle aus der Perspektive des Roboterlernens. Wir untersuchen, wie Weltmodelle mit Roboterpolitiken gekoppelt sind, wie sie als erlernte Simulatoren für bestärkendes Lernen und Evaluierung dienen und wie robotische Videoweltmodelle von imaginationsbasierter Generierung zu kontrollierbaren, strukturierten und Basismodell-großen Formulierungen fortgeschritten sind. Darüber hinaus verbinden wir diese Ideen mit Navigation und autonomem Fahren und fassen repräsentative Datensätze, Benchmarks und Evaluierungsprotokolle zusammen. Insgesamt gibt diese Übersichtsarbeit einen systematischen Überblick über die schnell wachsende Literatur zu Weltmodellen für das Roboterlernen, klärt zentrale Paradigmen und Anwendungen und hebt wesentliche Herausforderungen und zukünftige Richtungen für prädiktives Modellieren in verkörperten Agenten hervor. Um den kontinuierlichen Zugang zu neu erscheinenden Arbeiten, Benchmarks und Ressourcen zu erleichtern, werden wir das begleitende GitHub-Repository zu dieser Übersichtsarbeit pflegen und regelmäßig aktualisieren.
English
World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.
PDF122May 14, 2026