로봇의 물리 세계 모델 기반 학습
Robot Learning from a Physical World Model
November 10, 2025
저자: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI
초록
우리는 물리 세계 모델링을 통해 비디오 생성으로부터 로봇 학습을 가능하게 하는 프레임워크인 PhysWorld를 소개한다. 최근 비디오 생성 모델들은 언어 명령과 이미지로부터 사실적인 시각적 데모를 합성할 수 있어 로봇 공학에 강력하면서도 충분히 탐구되지 않은 훈련 신호원을 제공한다. 그러나 생성된 비디오의 픽셀 운동을 로봇에 직접 재타겟팅하는 것은 물리 법칙을 간과하여 종종 부정확한 조작을 초래한다. PhysWorld는 비디오 생성과 물리 세계 재구성을 결합하여 이 한계를 해결한다. 단일 이미지와 작업 명령이 주어지면, 우리의 방법은 작업 조건화된 비디오를 생성하고 비디오로부터 기저에 있는 물리 세계를 재구성하며, 생성된 비디오 운동은 물리 세계 모델을 활용한 객체 중심 잔여 강화 학습을 통해 물리적으로 정확한 행동으로 정착된다. 이러한 시너지는 암묵적인 시각적 지도를 물리적으로 실행 가능한 로봇 궤적으로 변환하여 실제 로봇 데이터 수집의 필요성을 제거하고 제로샷 일반화 가능한 로봇 조작을 가능하게 한다. 다양한 실제 작업에 대한 실험 결과, PhysWorld가 기존 접근법 대비 조작 정확도를 크게 향상시킴을 입증한다. 자세한 내용은 https://pointscoder.github.io/PhysWorld_Web/{프로젝트 웹페이지}를 방문하기 바란다.
English
We introduce PhysWorld, a framework that enables robot learning from video
generation through physical world modeling. Recent video generation models can
synthesize photorealistic visual demonstrations from language commands and
images, offering a powerful yet underexplored source of training signals for
robotics. However, directly retargeting pixel motions from generated videos to
robots neglects physics, often resulting in inaccurate manipulations. PhysWorld
addresses this limitation by coupling video generation with physical world
reconstruction. Given a single image and a task command, our method generates
task-conditioned videos and reconstructs the underlying physical world from the
videos, and the generated video motions are grounded into physically accurate
actions through object-centric residual reinforcement learning with the
physical world model. This synergy transforms implicit visual guidance into
physically executable robotic trajectories, eliminating the need for real robot
data collection and enabling zero-shot generalizable robotic manipulation.
Experiments on diverse real-world tasks demonstrate that PhysWorld
substantially improves manipulation accuracy compared to previous approaches.
Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage}
for details.