ChatPaper.aiChatPaper

Robotleren vanuit een Fysiek Wereldmodel

Robot Learning from a Physical World Model

November 10, 2025
Auteurs: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI

Samenvatting

Wij introduceren PhysWorld, een raamwerk dat robotleren mogelijk maakt via videogeneratie door middel van fysieke wereldmodellering. Recente videogeneratiemodellen kunnen fotorealistische visuele demonstraties synthetiseren vanuit taalcommando's en afbeeldingen, wat een krachtige maar onderbenutte bron van trainingssignalen voor robotica biedt. Echter, het direct vertalen van pixelbewegingen uit gegenereerde video's naar robots negeert de natuurkunde, wat vaak tot onnauwkeurige manipulaties leidt. PhysWorld lost deze beperking op door videogeneratie te koppelen aan reconstructie van de fysieke wereld. Gegeven een enkele afbeelding en een taakcommando genereert onze methode taakgeconditioneerde video's en reconstrueert de onderliggende fysieke wereld vanuit de video's. De gegenereerde videobewegingen worden vervolgens verankerd in fysiek nauwkeurige acties door objectgecentreerd residueel reinforcement learning met het fysieke wereldmodel. Deze synergie transformeert impliciete visuele begeleiding naar fysiek uitvoerbare robottrajecten, waardoor de noodzaak voor echte robotdatacollectie wordt geëlimineerd en zero-shot generaliseerbare robotmanipulatie mogelijk wordt. Experimenten met diverse real-world taken tonen aan dat PhysWorld de manipulatienauwkeurigheid aanzienlijk verbetert in vergelijking met eerdere benaderingen. Bezoek https://pointscoder.github.io/PhysWorld_Web/ voor details.
English
We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage} for details.
PDF282December 2, 2025