Modelo del Mundo para el Aprendizaje Robótico: Una Revisión Exhaustiva

Resumen

Los modelos del mundo, que son representaciones predictivas de cómo evolucionan los entornos bajo acciones, se han convertido en un componente central del aprendizaje robótico. Apoyan el aprendizaje de políticas, la planificación, la simulación, la evaluación, la generación de datos y han avanzado rápidamente con el auge de los modelos fundacionales y la generación de video a gran escala. Sin embargo, la literatura sigue fragmentada en cuanto a arquitecturas, roles funcionales y dominios de aplicación robótica. Para abordar esta brecha, presentamos una revisión exhaustiva de los modelos del mundo desde una perspectiva del aprendizaje robótico. Examinamos cómo los modelos del mundo se acoplan con las políticas robóticas, cómo sirven como simuladores aprendidos para el aprendizaje por refuerzo y la evaluación, y cómo los modelos del mundo de video robóticos han progresado desde la generación basada en imaginación hasta formulaciones controlables, estructuradas y a escala fundacional. Además, conectamos estas ideas con la navegación y la conducción autónoma, y resumimos conjuntos de datos representativos, puntos de referencia y protocolos de evaluación. En general, esta encuesta revisa sistemáticamente la literatura en rápido crecimiento sobre modelos del mundo para el aprendizaje robótico, aclara paradigmas y aplicaciones clave, y destaca los principales desafíos y direcciones futuras para el modelado predictivo en agentes robóticos. Para facilitar el acceso continuo a trabajos, puntos de referencia y recursos emergentes, mantendremos y actualizaremos periódicamente el repositorio de GitHub que acompaña a esta encuesta.

English

World models, which are predictive representations of how environments evolve under actions, have become a central component of robot learning. They support policy learning, planning, simulation, evaluation, data generation, and have advanced rapidly with the rise of foundation models and large-scale video generation. However, the literature remains fragmented across architectures, functional roles, and embodied application domains. To address this gap, we present a comprehensive review of world models from a robot-learning perspective. We examine how world models are coupled with robot policies, how they serve as learned simulators for reinforcement learning and evaluation, and how robotic video world models have progressed from imagination-based generation to controllable, structured, and foundation-scale formulations. We further connect these ideas to navigation and autonomous driving, and summarize representative datasets, benchmarks, and evaluation protocols. Overall, this survey systematically reviews the rapidly growing literature on world models for robot learning, clarifies key paradigms and applications, and highlights major challenges and future directions for predictive modeling in embodied agents. To facilitate continued access to newly emerging works, benchmarks, and resources, we will maintain and regularly update the accompanying GitHub repository alongside this survey.

Modelo del Mundo para el Aprendizaje Robótico: Una Revisión Exhaustiva

World Model for Robot Learning: A Comprehensive Survey

Resumen

Support