Aprendizaje Robótico a partir de un Modelo Físico del Mundo
Robot Learning from a Physical World Model
November 10, 2025
Autores: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI
Resumen
Presentamos PhysWorld, un marco que permite el aprendizaje robótico mediante la generación de vídeos a través del modelado del mundo físico. Los modelos recientes de generación de vídeos pueden sintetizar demostraciones visuales fotorrealistas a partir de comandos de lenguaje e imágenes, ofreciendo una fuente de señales de entrenamiento potente pero poco explorada para la robótica. Sin embargo, redirigir directamente los movimientos de píxeles de los vídeos generados a los robots ignora la física, lo que a menudo da lugar a manipulaciones inexactas. PhysWorld aborda esta limitación acoplando la generación de vídeos con la reconstrucción del mundo físico. Dada una única imagen y un comando de tarea, nuestro método genera vídeos condicionados por la tarea y reconstruye el mundo físico subyacente a partir de los vídeos; los movimientos generados en el vídeo se materializan en acciones físicamente precisas mediante un aprendizaje por refuerzo residual centrado en objetos con el modelo del mundo físico. Esta sinergia transforma la guía visual implícita en trayectorias robóticas físicamente ejecutables, eliminando la necesidad de recopilar datos de robots reales y permitiendo una manipulación robótica generalizable de tipo *zero-shot*. Los experimentos en diversas tareas del mundo real demuestran que PhysWorld mejora sustancialmente la precisión de la manipulación en comparación con enfoques anteriores. Visite https://pointscoder.github.io/PhysWorld_Web/ para más detalles.
English
We introduce PhysWorld, a framework that enables robot learning from video
generation through physical world modeling. Recent video generation models can
synthesize photorealistic visual demonstrations from language commands and
images, offering a powerful yet underexplored source of training signals for
robotics. However, directly retargeting pixel motions from generated videos to
robots neglects physics, often resulting in inaccurate manipulations. PhysWorld
addresses this limitation by coupling video generation with physical world
reconstruction. Given a single image and a task command, our method generates
task-conditioned videos and reconstructs the underlying physical world from the
videos, and the generated video motions are grounded into physically accurate
actions through object-centric residual reinforcement learning with the
physical world model. This synergy transforms implicit visual guidance into
physically executable robotic trajectories, eliminating the need for real robot
data collection and enabling zero-shot generalizable robotic manipulation.
Experiments on diverse real-world tasks demonstrate that PhysWorld
substantially improves manipulation accuracy compared to previous approaches.
Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage}
for details.