PhysWorld: De Vídeos Reais a Modelos de Mundo de Objetos Deformáveis via Síntese de Demonstrações com Consciência Física
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
Autores: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
Resumo
Modelos de mundo interativos que simulam a dinâmica de objetos são cruciais para a robótica, realidade virtual (RV) e realidade aumentada (RA). No entanto, permanece um desafio significativo aprender modelos de dinâmica consistentes com a física a partir de dados limitados de vídeo do mundo real, especialmente para objetos deformáveis com propriedades físicas espacialmente variáveis. Para superar o desafio da escassez de dados, propomos o PhysWorld, uma nova estrutura que utiliza um simulador para sintetizar demonstrações fisicamente plausíveis e diversificadas para aprender modelos de mundo eficientes. Especificamente, primeiro construímos um gémeo digital fisicamente consistente dentro do simulador MPM (Material Point Method) através da seleção de modelos constitutivos e da otimização global-para-local das propriedades físicas. Subsequentemente, aplicamos perturbações conscientes das partes às propriedades físicas e geramos vários padrões de movimento para o gémeo digital, sintetizando demonstrações extensas e diversificadas. Finalmente, usando essas demonstrações, treinamos um modelo de mundo leve baseado em GNN (Graph Neural Network) que incorpora propriedades físicas. O vídeo real pode ser utilizado para refinar ainda mais as propriedades físicas. O PhysWorld alcança previsões futuras precisas e rápidas para vários objetos deformáveis e também generaliza bem para novas interações. Experiências mostram que o PhysWorld tem um desempenho competitivo, permitindo velocidades de inferência 47 vezes mais rápidas do que o método state-of-the-art recente, ou seja, o PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.