PhysWorld: Van echte video's naar wereldmodellen van vervormbare objecten via fysicabewuste demonstratiesynthese
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
Auteurs: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
Samenvatting
Interactieve wereldmodellen die objectdynamica simuleren zijn cruciaal voor robotica, VR en AR. Het blijft echter een grote uitdaging om fysica-consistente dynamiekmodellen te leren uit beperkte videogegevens uit de echte wereld, vooral voor vervormbare objecten met ruimtelijk variërende fysische eigenschappen. Om de uitdaging van dataschaarste te overwinnen, stellen we PhysWorld voor, een nieuw raamwerk dat een simulator gebruikt om fysisch plausibele en diverse demonstraties te synthetiseren om efficiënte wereldmodellen te leren. Concreet construeren we eerst een fysica-consistente digitale tweeling binnen een MPM-simulator via constitutief modelselectie en global-naar-lokale optimalisatie van fysische eigenschappen. Vervolgens passen we deelbewuste perturbaties toe op de fysische eigenschappen en genereren we verschillende bewegingspatronen voor de digitale tweeling, waarbij we uitgebreide en diverse demonstraties synthetiseren. Ten slotte trainen we met deze demonstraties een lichtgewicht, op GNN gebaseerd wereldmodel waarin fysische eigenschappen zijn ingebed. De echte video kan worden gebruikt om de fysische eigenschappen verder te verfijnen. PhysWorld bereikt nauwkeurige en snelle toekomstvoorspellingen voor diverse vervormbare objecten en generaliseert ook goed naar nieuwe interacties. Experimenten tonen aan dat PhysWorld een competitieve prestaties heeft terwijl het inferentiesnelheden mogelijk maakt die 47 keer sneller zijn dan de recente state-of-the-art methode, namelijk PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.