Apprendimento dei Robot da un Modello Fisico del Mondo
Robot Learning from a Physical World Model
November 10, 2025
Autori: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI
Abstract
Introduciamo PhysWorld, un framework che abilita l'apprendimento robotico tramite la generazione di video attraverso la modellazione del mondo fisico. I recenti modelli di generazione video possono sintetizzare dimostrazioni visive fotorealistiche a partire da comandi linguistici e immagini, offrendo una fonte di segnali di addestramento per la robotica potente ma ancora poco esplorata. Tuttavia, il trasferimento diretto dei movimenti pixel dai video generati ai robot trascura la fisica, risultando spesso in manipolazioni inaccurate. PhysWorld affronta questa limitazione accoppiando la generazione video con la ricostruzione del mondo fisico. Dati un'immagine singola e un comando di task, il nostro metodo genera video condizionati al task e ricostruisce il mondo fisico sottostante a partire dai video; i movimenti generati nel video vengono ancorati in azioni fisicamente accurate attraverso un apprendimento per rinforzo residuo centrato sugli oggetti, utilizzando il modello del mondo fisico. Questa sinergia trasforma una guida visiva implicita in traiettorie roboticamente eseguibili fisicamente, eliminando la necessità di raccolta di dati reali da robot e abilitando una manipolazione robotica generalizzabile zero-shot. Esperimenti su task del mondo reale diversificati dimostrano che PhysWorld migliora sostanzialmente l'accuratezza della manipolazione rispetto ad approcci precedenti. Visita https://pointscoder.github.io/PhysWorld_Web/ per i dettagli.
English
We introduce PhysWorld, a framework that enables robot learning from video
generation through physical world modeling. Recent video generation models can
synthesize photorealistic visual demonstrations from language commands and
images, offering a powerful yet underexplored source of training signals for
robotics. However, directly retargeting pixel motions from generated videos to
robots neglects physics, often resulting in inaccurate manipulations. PhysWorld
addresses this limitation by coupling video generation with physical world
reconstruction. Given a single image and a task command, our method generates
task-conditioned videos and reconstructs the underlying physical world from the
videos, and the generated video motions are grounded into physically accurate
actions through object-centric residual reinforcement learning with the
physical world model. This synergy transforms implicit visual guidance into
physically executable robotic trajectories, eliminating the need for real robot
data collection and enabling zero-shot generalizable robotic manipulation.
Experiments on diverse real-world tasks demonstrate that PhysWorld
substantially improves manipulation accuracy compared to previous approaches.
Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage}
for details.