PhysCtrl: Generative Physik für kontrollierbare und physikalisch fundierte Videogenerierung
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation
September 24, 2025
papers.authors: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI
papers.abstract
Bestehende Video-Generierungsmodelle sind hervorragend darin, fotorealistische Videos aus Text oder Bildern zu erzeugen, mangeln jedoch oft an physikalischer Plausibilität und 3D-Kontrollierbarkeit. Um diese Einschränkungen zu überwinden, stellen wir PhysCtrl vor, ein neuartiges Framework für physikbasierte Bild-zu-Video-Generierung mit physikalischen Parametern und Kraftsteuerung. Im Kern befindet sich ein generatives Physiknetzwerk, das die Verteilung physikalischer Dynamiken über vier Materialien (elastisch, Sand, Plastilin und starr) mithilfe eines auf Physikparameter und angewendete Kräfte konditionierten Diffusionsmodells lernt. Wir repräsentieren physikalische Dynamiken als 3D-Punkt-Trajektorien und trainieren auf einem groß angelegten synthetischen Datensatz von 550.000 Animationen, die von Physiksimulatoren generiert wurden. Wir erweitern das Diffusionsmodell mit einem neuartigen raumzeitlichen Aufmerksamkeitsblock, der Partikelinteraktionen nachahmt und physikbasierte Einschränkungen während des Trainings einbindet, um physikalische Plausibilität zu gewährleisten. Experimente zeigen, dass PhysCtrl realistische, physikbasierte Bewegungstrajektorien erzeugt, die, wenn sie zur Steuerung von Bild-zu-Video-Modellen verwendet werden, hochwertige, kontrollierbare Videos liefern, die bestehende Methoden sowohl in visueller Qualität als auch in physikalischer Plausibilität übertreffen. Projektseite: https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos
from text or images, but often lack physical plausibility and 3D
controllability. To overcome these limitations, we introduce PhysCtrl, a novel
framework for physics-grounded image-to-video generation with physical
parameters and force control. At its core is a generative physics network that
learns the distribution of physical dynamics across four materials (elastic,
sand, plasticine, and rigid) via a diffusion model conditioned on physics
parameters and applied forces. We represent physical dynamics as 3D point
trajectories and train on a large-scale synthetic dataset of 550K animations
generated by physics simulators. We enhance the diffusion model with a novel
spatiotemporal attention block that emulates particle interactions and
incorporates physics-based constraints during training to enforce physical
plausibility. Experiments show that PhysCtrl generates realistic,
physics-grounded motion trajectories which, when used to drive image-to-video
models, yield high-fidelity, controllable videos that outperform existing
methods in both visual quality and physical plausibility. Project Page:
https://cwchenwang.github.io/physctrl