ChatPaper.aiChatPaper

PhysWorld : Des vidéros réels aux modèles du monde d'objets déformables via la synthèse de démonstrations intégrant la physique

PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

October 24, 2025
papers.authors: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI

papers.abstract

Les modèles de monde interactifs simulant la dynamique des objets sont cruciaux pour la robotique, la réalité virtuelle (RV) et la réalité augmentée (RA). Cependant, apprendre des modèles de dynamique physiquement cohérents à partir de données vidéo réelles limitées reste un défi majeur, particulièrement pour les objets déformables ayant des propriétés physiques spatialement variables. Pour surmonter le problème de la rareté des données, nous proposons PhysWorld, un nouveau cadre qui utilise un simulateur pour synthétiser des démonstrations physiquement plausibles et diverses afin d'apprendre des modèles de monde efficaces. Concrètement, nous construisons d'abord un jumeau numérique physiquement cohérent dans le simulateur MPM via une sélection de modèles constitutifs et une optimisation globale-vers-locale des propriétés physiques. Ensuite, nous appliquons des perturbations spécifiques aux parties pour modifier les propriétés physiques et générons divers motifs de mouvement pour le jumeau numérique, synthétisant ainsi des démonstrations étendues et variées. Enfin, en utilisant ces démonstrations, nous entraînons un modèle de monde léger basé sur un Réseau de Neurones à Graphes (GNN) intégrant les propriétés physiques. La vidéo réelle peut être utilisée pour affiner davantage les propriétés physiques. PhysWorld permet des prédictions futures précises et rapides pour divers objets déformables et généralise bien à de nouvelles interactions. Les expériences montrent que PhysWorld offre des performances compétitives tout en permettant des vitesses d'inférence 47 fois plus rapides que la méthode récente de pointe, PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for robotics, VR, and AR. However, it remains a significant challenge to learn physics-consistent dynamics models from limited real-world video data, especially for deformable objects with spatially-varying physical properties. To overcome the challenge of data scarcity, we propose PhysWorld, a novel framework that utilizes a simulator to synthesize physically plausible and diverse demonstrations to learn efficient world models. Specifically, we first construct a physics-consistent digital twin within MPM simulator via constitutive model selection and global-to-local optimization of physical properties. Subsequently, we apply part-aware perturbations to the physical properties and generate various motion patterns for the digital twin, synthesizing extensive and diverse demonstrations. Finally, using these demonstrations, we train a lightweight GNN-based world model that is embedded with physical properties. The real video can be used to further refine the physical properties. PhysWorld achieves accurate and fast future predictions for various deformable objects, and also generalizes well to novel interactions. Experiments show that PhysWorld has competitive performance while enabling inference speeds 47 times faster than the recent state-of-the-art method, i.e., PhysTwin.
PDF41December 17, 2025