ChatPaper.aiChatPaper

Roboterlernen anhand eines physikalischen Weltmodells

Robot Learning from a Physical World Model

November 10, 2025
papers.authors: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI

papers.abstract

Wir stellen PhysWorld vor, einen Rahmen, der Roboterlernen durch Videogenerierung mittels physikalischer Weltmodellierung ermöglicht. Aktuelle Videogenerierungsmodelle können fotorealistische visuelle Demonstrationen aus Sprachbefehlen und Bildern synthetisieren und bieten somit eine leistungsstarke, aber bisher wenig genutzte Trainingssignalquelle für die Robotik. Die direkte Übertragung von Pixelbewegungen aus generierten Videos auf Roboter vernachlässigt jedoch die Physik, was häufig zu ungenauen Manipulationen führt. PhysWorld adressiert diese Einschränkung durch die Kopplung von Videogenerierung mit physikalischer Weltrekonstruktion. Ausgehend von einem einzelnen Bild und einem Aufgabenbefehl generiert unsere Methode aufgabenkonditionierte Videos und rekonstruiert die zugrundeliegende physikalische Welt aus den Videos. Die generierten Videobewegungen werden durch objekzentriertes residuales bestärkendes Lernen mit dem physikalischen Weltmodell in physikalisch korrekte Aktionen überführt. Diese Synergie wandelt implizite visuelle Anleitungen in physikalisch ausführbare Roboterbahnen um, macht die Erfassung realer Roboterdaten überflüssig und ermöglicht null-shot-verallgemeinerbare robotische Manipulation. Experimente zu verschiedenen realen Aufgaben zeigen, dass PhysWorld die Manipulationsgenauigkeit im Vergleich zu früheren Ansätzen erheblich verbessert. Weitere Einzelheiten finden Sie unter https://pointscoder.github.io/PhysWorld_Web/{die Projektwebseite}.
English
We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage} for details.
PDF282December 2, 2025