Apprentissage des robots par un modèle physique du monde
Robot Learning from a Physical World Model
November 10, 2025
papers.authors: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI
papers.abstract
Nous présentons PhysWorld, un cadre permettant l'apprentissage robotique par génération de vidéos via la modélisation du monde physique. Les modèles récents de génération vidéo peuvent synthétiser des démonstrations visuelles photoréalistes à partir de commandes langagières et d'images, offrant une source de signaux d'apprentissage puissante mais encore peu explorée pour la robotique. Cependant, le transfert direct des mouvements pixeliques des vidéos générées vers les robots néglige la physique, conduisant souvent à des manipulations inexactes. PhysWorld résout cette limitation en couplant la génération vidéo avec la reconstruction du monde physique. À partir d'une image unique et d'une commande de tâche, notre méthode génère des vidéos conditionnées par la tâche et reconstruit le monde physique sous-jacent à partir des vidéos. Les mouvements vidéo générés sont ancrés en actions physiquement précises grâce à un apprentissage par renforcement résiduel centré sur les objets utilisant le modèle du monde physique. Cette synergie transforme les guidages visuels implicites en trajectoires robotiques physiquement exécutables, éliminant le besoin de collecte de données robotiques réelles et permettant une manipulation robotique généralisable à zéro-shot. Les expériences sur diverses tâches du monde réel démontrent que PhysWorld améliore substantiellement la précision manipulationnelle comparé aux approches antérieures. Consultez https://pointscoder.github.io/PhysWorld_Web/ pour plus de détails.
English
We introduce PhysWorld, a framework that enables robot learning from video
generation through physical world modeling. Recent video generation models can
synthesize photorealistic visual demonstrations from language commands and
images, offering a powerful yet underexplored source of training signals for
robotics. However, directly retargeting pixel motions from generated videos to
robots neglects physics, often resulting in inaccurate manipulations. PhysWorld
addresses this limitation by coupling video generation with physical world
reconstruction. Given a single image and a task command, our method generates
task-conditioned videos and reconstructs the underlying physical world from the
videos, and the generated video motions are grounded into physically accurate
actions through object-centric residual reinforcement learning with the
physical world model. This synergy transforms implicit visual guidance into
physically executable robotic trajectories, eliminating the need for real robot
data collection and enabling zero-shot generalizable robotic manipulation.
Experiments on diverse real-world tasks demonstrate that PhysWorld
substantially improves manipulation accuracy compared to previous approaches.
Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage}
for details.