PhysWorld: 실제 영상에서 물리 인식 데모 합성을 통한 변형 가능 객체의 세계 모델 구축
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
저자: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
초록
물체 역학을 시뮬레이션하는 인터랙티브 월드 모델은 로봇공학, 가상 현실(VR), 증강 현실(AR) 분야에서 매우 중요합니다. 그러나 특히 공간적으로 변하는 물리적 속성을 가진 변형체 객체의 경우, 제한된 실제 세계 비디오 데이터로부터 물리적 일관성을 갖춘 역학 모델을 학습하는 것은 여전히 큰 과제로 남아 있습니다. 이러한 데이터 부족 문제를 해결하기 위해, 본 연구에서는 시뮬레이터를 활용하여 물리적으로 타당하고 다양한 데모를 합성하여 효율적인 월드 모델을 학습하는 새로운 프레임워크인 PhysWorld를 제안합니다. 구체적으로, 우리는 먼저 구성 모델 선택과 물리적 속성에 대한 전역-국소 최적화를 통해 MPM 시뮬레이터 내에 물리적 일관성을 갖춘 디지털 트윈을 구축합니다. 이후, 물리적 속성에 부분 인식 교란을 적용하고 디지털 트윈에 대해 다양한 운동 패턴을 생성하여 방대하고 다양한 데모를 합성합니다. 마지막으로, 이러한 데모를 사용하여 물리적 속성이 내재된 경량 GNN 기반 월드 모델을 학습합니다. 실제 비디오를 사용하여 물리적 속성을 추가로 정제할 수 있습니다. PhysWorld는 다양한 변형체 객체에 대해 정확하고 빠른 미래 예측을 달성하며, 새로운 상호작용에도 잘 일반화됩니다. 실험 결과, PhysWorld는 최신 SOTA 방법인 PhysTwin 대비 47배 빠른 추론 속도를 가능하게 하면서도 경쟁력 있는 성능을 보여줍니다.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.