PhysWorld: От реальных видео к мировым моделям деформируемых объектов с помощью синтеза демонстраций с учетом физики
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
Авторы: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
Аннотация
Интерактивные мировые модели, симулирующие динамику объектов, крайне важны для робототехники, VR и AR. Однако обучение физически согласованных моделей динамики по ограниченным видеоданным из реального мира остается серьезной проблемой, особенно для деформируемых объектов с пространственно-вариативными физическими свойствами. Для преодоления проблемы нехватки данных мы предлагаем PhysWorld — новую структуру, которая использует симулятор для синтеза физически правдоподобных и разнообразных демонстраций с целью обучения эффективных мировых моделей. В частности, мы сначала создаем физически согласованный цифровой двойник в симуляторе MPM посредством выбора конститутивной модели и глобально-локальной оптимизации физических свойств. Затем мы применяем парциальные возмущения к физическим свойствам и генерируем различные паттерны движения для цифрового двойника, синтезируя обширные и разнообразные демонстрации. Наконец, используя эти демонстрации, мы обучаем легковесную мировую модель на основе GNN, в которую встроены физические свойства. Реальное видео может быть использовано для дальнейшего уточнения физических свойств. PhysWorld обеспечивает точные и быстрые прогнозы будущих состояний для различных деформируемых объектов, а также хорошо обобщается на новые взаимодействия. Эксперименты показывают, что PhysWorld демонстрирует конкурентную производительность, обеспечивая при этом скорость вывода в 47 раз выше, чем современный метод-лидер PhysTwin.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.