PhysWorld: Von echten Videos zu Weltmodellen verformbarer Objekte durch physikbewusste Demonstrationssynthese
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
October 24, 2025
papers.authors: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo
cs.AI
papers.abstract
Interaktive Weltmodelle, die Objektdynamiken simulieren, sind entscheidend für Robotik, VR und AR. Es bleibt jedoch eine große Herausforderung, physikkonsistente Dynamikmodelle aus begrenzten realen Videodaten zu lernen, insbesondere für deformierbare Objekte mit räumlich variierenden physikalischen Eigenschaften. Um die Herausforderung der Datenknappheit zu bewältigen, schlagen wir PhysWorld vor, einen neuartigen Rahmen, der einen Simulator nutzt, um physikalisch plausible und vielfältige Demonstrationen zur Erstellung effizienter Weltmodelle zu synthetisieren. Konkret konstruieren wir zunächst einen physikkonsistenten digitalen Zwilling innerhalb eines MPM-Simulators durch Auswahl des Materialmodells und Global-zu-Lokal-Optimierung der physikalischen Eigenschaften. Anschließend wenden wir teilbereichsbewusste Störungen auf die physikalischen Eigenschaften an und erzeugen verschiedene Bewegungsmuster für den digitalen Zwilling, wodurch umfangreiche und diverse Demonstrationen synthetisiert werden. Schließlich trainieren wir mit diesen Demonstrationen ein leichtgewichtiges, GNN-basiertes Weltmodell, das physikalische Eigenschaften einbettet. Reale Videos können zur weiteren Verfeinerung der physikalischen Eigenschaften genutzt werden. PhysWorld erreicht präzise und schnelle Zukunftsprognosen für verschiedene deformierbare Objekte und generalisiert auch gut auf neuartige Interaktionen. Experimente zeigen, dass PhysWorld eine wettbewerbsfähige Leistung erbringt und dabei eine 47-fach schnellere Inferenzgeschwindigkeit im Vergleich zur aktuellen State-of-the-Art-Methode PhysTwin ermöglicht.
English
Interactive world models that simulate object dynamics are crucial for
robotics, VR, and AR. However, it remains a significant challenge to learn
physics-consistent dynamics models from limited real-world video data,
especially for deformable objects with spatially-varying physical properties.
To overcome the challenge of data scarcity, we propose PhysWorld, a novel
framework that utilizes a simulator to synthesize physically plausible and
diverse demonstrations to learn efficient world models. Specifically, we first
construct a physics-consistent digital twin within MPM simulator via
constitutive model selection and global-to-local optimization of physical
properties. Subsequently, we apply part-aware perturbations to the physical
properties and generate various motion patterns for the digital twin,
synthesizing extensive and diverse demonstrations. Finally, using these
demonstrations, we train a lightweight GNN-based world model that is embedded
with physical properties. The real video can be used to further refine the
physical properties. PhysWorld achieves accurate and fast future predictions
for various deformable objects, and also generalizes well to novel
interactions. Experiments show that PhysWorld has competitive performance while
enabling inference speeds 47 times faster than the recent state-of-the-art
method, i.e., PhysTwin.