PhysWorld : Des vidéros réels aux modèles du monde d'objets déformables via la synthèse de démonstrations intégrant la physique
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
papers.authors: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
papers.abstract
Les modèles de monde interactifs simulant la dynamique des objets sont cruciaux pour la robotique, la réalité virtuelle (RV) et la réalité augmentée (RA). Cependant, apprendre des modèles de dynamique physiquement cohérents à partir de données vidéo réelles limitées reste un défi majeur, particulièrement pour les objets déformables ayant des propriétés physiques spatialement variables. Pour surmonter le problème de la rareté des données, nous proposons PhysWorld, un nouveau cadre qui utilise un simulateur pour synthétiser des démonstrations physiquement plausibles et diverses afin d'apprendre des modèles de monde efficaces. Concrètement, nous construisons d'abord un jumeau numérique physiquement cohérent dans le simulateur MPM via une sélection de modèles constitutifs et une optimisation globale-vers-locale des propriétés physiques. Ensuite, nous appliquons des perturbations spécifiques aux parties pour modifier les propriétés physiques et générons divers motifs de mouvement pour le jumeau numérique, synthétisant ainsi des démonstrations étendues et variées. Enfin, en utilisant ces démonstrations, nous entraînons un modèle de monde léger basé sur un Réseau de Neurones à Graphes (GNN) intégrant les propriétés physiques. La vidéo réelle peut être utilisée pour affiner davantage les propriétés physiques. PhysWorld permet des prédictions futures précises et rapides pour divers objets déformables et généralise bien à de nouvelles interactions. Les expériences montrent que PhysWorld offre des performances compétitives tout en permettant des vitesses d'inférence 47 fois plus rapides que la méthode récente de pointe, PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.