ChatPaper.aiChatPaper

PhysWorld: De Videos Reales a Modelos del Mundo de Objetos Deformables mediante la Síntesis de Demostraciones Conscientes de la Física

PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

October 24, 2025
Autores: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI

Resumen

Los modelos de mundo interactivos que simulan la dinámica de objetos son cruciales para la robótica, la realidad virtual (RV) y la realidad aumentada (RA). Sin embargo, sigue siendo un desafío significativo aprender modelos de dinámica consistentes con la física a partir de datos limitados de vídeo del mundo real, especialmente para objetos deformables con propiedades físicas que varían espacialmente. Para superar el desafío de la escasez de datos, proponemos PhysWorld, un marco novedoso que utiliza un simulador para sintetizar demostraciones físicamente plausibles y diversas, con el fin de aprender modelos de mundo eficientes. Específicamente, primero construimos un gemelo digital físicamente consistente dentro del simulador MPM mediante la selección de modelos constitutivos y la optimización global-local de las propiedades físicas. Posteriormente, aplicamos perturbaciones conscientes de las partes a las propiedades físicas y generamos varios patrones de movimiento para el gemelo digital, sintetizando así demostraciones extensas y diversas. Finalmente, utilizando estas demostraciones, entrenamos un modelo de mundo ligero basado en GNN que incorpora propiedades físicas. El vídeo real puede utilizarse para refinar aún más las propiedades físicas. PhysWorld logra predicciones futuras precisas y rápidas para varios objetos deformables, y también se generaliza bien a interacciones novedosas. Los experimentos muestran que PhysWorld tiene un rendimiento competitivo mientras permite velocidades de inferencia 47 veces más rápidas que el método reciente de vanguardia, PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for robotics, VR, and AR. However, it remains a significant challenge to learn physics-consistent dynamics models from limited real-world video data, especially for deformable objects with spatially-varying physical properties. To overcome the challenge of data scarcity, we propose PhysWorld, a novel framework that utilizes a simulator to synthesize physically plausible and diverse demonstrations to learn efficient world models. Specifically, we first construct a physics-consistent digital twin within MPM simulator via constitutive model selection and global-to-local optimization of physical properties. Subsequently, we apply part-aware perturbations to the physical properties and generate various motion patterns for the digital twin, synthesizing extensive and diverse demonstrations. Finally, using these demonstrations, we train a lightweight GNN-based world model that is embedded with physical properties. The real video can be used to further refine the physical properties. PhysWorld achieves accurate and fast future predictions for various deformable objects, and also generalizes well to novel interactions. Experiments show that PhysWorld has competitive performance while enabling inference speeds 47 times faster than the recent state-of-the-art method, i.e., PhysTwin.
PDF41December 17, 2025