ChatPaper.aiChatPaper

物理世界モデルからのロボット学習

Robot Learning from a Physical World Model

November 10, 2025
著者: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI

要旨

我々は、物理世界モデリングを通じてビデオ生成からロボット学習を可能にするフレームワーク「PhysWorld」を提案する。近年のビデオ生成モデルは、言語コマンドと画像から写実的な視覚的デモンストレーションを合成可能であり、ロボティクスにおける強力ながら未開拓の訓練信号源を提供する。しかし、生成されたビデオからピクセル運動を直接ロボットに転用する手法は物理法則を無視するため、不正確な動作を招くことが多い。PhysWorldは、ビデオ生成と物理世界の再構築を連携させることでこの課題を解決する。単一画像とタスクコマンドが与えられると、本手法はタスク条件付きビデオを生成し、ビデオから背景にある物理世界を再構築する。生成されたビデオの運動は、物体中心の残差強化学習と物理世界モデルを用いて物理的に正確な動作へと接地される。この協調作用により、暗黙的な視覚ガイダンスが物理的に実行可能なロボット軌道へ変換され、実ロボットデータ収集の必要性を排除しながらゼロショット一般化可能なロボット動作を実現する。多様な実世界タスクにおける実験により、PhysWorldが従来手法に比べて動作精度を大幅に向上させることを実証した。詳細はプロジェクトウェブページ(https://pointscoder.github.io/PhysWorld_Web/)を参照されたい。
English
We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage} for details.
PDF282December 2, 2025