ChatPaper.aiChatPaper

Apprendimento dei Robot da un Modello Fisico del Mondo

Robot Learning from a Physical World Model

November 10, 2025
Autori: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI

Abstract

Introduciamo PhysWorld, un framework che abilita l'apprendimento robotico tramite la generazione di video attraverso la modellazione del mondo fisico. I recenti modelli di generazione video possono sintetizzare dimostrazioni visive fotorealistiche a partire da comandi linguistici e immagini, offrendo una fonte di segnali di addestramento per la robotica potente ma ancora poco esplorata. Tuttavia, il trasferimento diretto dei movimenti pixel dai video generati ai robot trascura la fisica, risultando spesso in manipolazioni inaccurate. PhysWorld affronta questa limitazione accoppiando la generazione video con la ricostruzione del mondo fisico. Dati un'immagine singola e un comando di task, il nostro metodo genera video condizionati al task e ricostruisce il mondo fisico sottostante a partire dai video; i movimenti generati nel video vengono ancorati in azioni fisicamente accurate attraverso un apprendimento per rinforzo residuo centrato sugli oggetti, utilizzando il modello del mondo fisico. Questa sinergia trasforma una guida visiva implicita in traiettorie roboticamente eseguibili fisicamente, eliminando la necessità di raccolta di dati reali da robot e abilitando una manipolazione robotica generalizzabile zero-shot. Esperimenti su task del mondo reale diversificati dimostrano che PhysWorld migliora sostanzialmente l'accuratezza della manipolazione rispetto ad approcci precedenti. Visita https://pointscoder.github.io/PhysWorld_Web/ per i dettagli.
English
We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage} for details.
PDF282December 2, 2025