ChatPaper.aiChatPaper

PhysCtrl: Generatieve Fysica voor Bestuurbare en Fysiek-Gegronde Videogeneratie

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

September 24, 2025
Auteurs: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI

Samenvatting

Bestaande videogeneratiemodellen blinken uit in het produceren van fotorealistische video's op basis van tekst of afbeeldingen, maar missen vaak fysische geloofwaardigheid en 3D-bestuurbaarheid. Om deze beperkingen te overwinnen, introduceren we PhysCtrl, een nieuw raamwerk voor fysica-gebaseerde beeld-naar-videogeneratie met fysische parameters en krachtbesturing. De kern bestaat uit een generatief fysica-netwerk dat de verdeling van fysische dynamiek leert over vier materialen (elastisch, zand, plasticine en rigide) via een diffusiemodel dat is geconditioneerd op fysicaparameters en uitgeoefende krachten. We representeren fysische dynamiek als 3D-punttrajectorieën en trainen op een grootschalige synthetische dataset van 550K animaties gegenereerd door fysicasimulators. We versterken het diffusiemodel met een nieuw spatiotemporeel aandachtblok dat deeltjesinteracties nabootst en fysica-gebaseerde beperkingen tijdens de training incorporeert om fysische geloofwaardigheid te waarborgen. Experimenten tonen aan dat PhysCtrl realistische, fysica-gebaseerde bewegingsbanen genereert die, wanneer gebruikt om beeld-naar-videomodellen aan te sturen, hoogwaardige, bestuurbare video's opleveren die bestaande methoden overtreffen in zowel visuele kwaliteit als fysische geloofwaardigheid. Projectpagina: https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl
PDF122September 25, 2025