PhysWorld: Dai Video Reali ai Modelli del Mondo per Oggetti Deformabili tramite Sintesi di Dimostrazioni Consapevole della Fisica
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
Autori: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
Abstract
I modelli mondiali interattivi che simulano la dinamica degli oggetti sono cruciali per la robotica, la realtà virtuale (VR) e quella aumentata (AR). Tuttavia, apprendere modelli di dinamica fisicamente consistenti a partire da dati video reali limitati rimane una sfida significativa, specialmente per oggetti deformabili con proprietà fisiche variabili spazialmente. Per superare la sfida della scarsità di dati, proponiamo PhysWorld, un nuovo framework che utilizza un simulatore per sintetizzare dimostrazioni fisicamente plausibili e diversificate al fine di apprendere modelli mondiali efficienti. Nello specifico, costruiamo prima un gemello digitale fisicamente consistente all'interno del simulatore MPM attraverso la selezione di modelli costitutivi e l'ottimizzazione globale-to-locale delle proprietà fisiche. Successivamente, applichiamo perturbazioni part-aware alle proprietà fisiche e generiamo vari pattern di movimento per il gemello digitale, sintetizzando così dimostrazioni estese e diversificate. Infine, utilizzando queste dimostrazioni, addestriamo un modello mondiale leggero basato su GNN (Graph Neural Network) in cui sono incorporate le proprietà fisiche. Il video reale può essere utilizzato per affinare ulteriormente le proprietà fisiche. PhysWorld ottiene previsioni future accurate e rapide per vari oggetti deformabili e si generalizza bene anche a interazioni non viste. Gli esperimenti mostrano che PhysWorld ha prestazioni competitive consentendo al contempo velocità di inferenza 47 volte superiori rispetto al recente metodo state-of-the-art, ovvero PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.