PhysWorld: 実写映像から物理を考慮したデモンストレーション合成による変形可能物体の世界モデルへ
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
著者: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
要旨
物体の動力学をシミュレートする対話的世界モデルは、ロボティクス、VR、ARにおいて重要である。しかし、限られた実世界の映像データから物理整合性のある動力学モデルを学習することは、特に空間的に変化する物理特性を持つ変形体において、依然として大きな課題である。データ不足の課題を克服するため、我々はシミュレータを活用して物理的に妥当かつ多様なデモンゼーションを合成し、効率的な世界モデルを学習する新規フレームワークPhysWorldを提案する。具体的には、まず構成モデル選択と物理特性のグローバルからローカルへの最適化により、MPMシミュレータ内に物理整合性のあるデジタルツインを構築する。続いて、物理特性に部品を考慮した摂動を加え、デジタルツインに対して様々な動作パターンを生成し、広範かつ多様なデモンゼーションを合成する。最後に、これらのデモンゼーションを用いて、物理特性が埋め込まれた軽量なGNNベースの世界モデルを学習する。実映像を用いて物理特性をさらに精緻化できる。PhysWorldは様々な変形体に対して正確かつ高速な未来予測を実現し、新しい相互作用に対しても良好な一般化性能を示す。実験により、PhysWorldは競争力のある性能を発揮しつつ、最近の最先端手法PhysTwinと比較して47倍高速な推論を可能にすることが示された。
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.