PhysCtrl: Fisica Generativa per la Creazione di Video Controllabili e Basati sulla Fisica
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation
September 24, 2025
Autori: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI
Abstract
I modelli esistenti per la generazione di video eccellono nella produzione di video fotorealistici a partire da testo o immagini, ma spesso mancano di plausibilità fisica e controllabilità 3D. Per superare queste limitazioni, introduciamo PhysCtrl, un nuovo framework per la generazione di video da immagini basata sulla fisica, con parametri fisici e controllo delle forze. Al suo centro c'è una rete generativa di fisica che apprende la distribuzione delle dinamiche fisiche attraverso quattro materiali (elastico, sabbia, plastilina e rigido) mediante un modello di diffusione condizionato su parametri fisici e forze applicate. Rappresentiamo le dinamiche fisiche come traiettorie di punti 3D e addestriamo il modello su un ampio dataset sintetico di 550K animazioni generate da simulatori fisici. Potenziamo il modello di diffusione con un nuovo blocco di attenzione spaziotemporale che emula le interazioni tra particelle e incorpora vincoli basati sulla fisica durante l'addestramento per garantire la plausibilità fisica. Gli esperimenti dimostrano che PhysCtrl genera traiettorie di movimento realistiche e basate sulla fisica che, quando utilizzate per guidare modelli di generazione video da immagini, producono video ad alta fedeltà e controllabili, superando i metodi esistenti sia nella qualità visiva che nella plausibilità fisica. Pagina del progetto: https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos
from text or images, but often lack physical plausibility and 3D
controllability. To overcome these limitations, we introduce PhysCtrl, a novel
framework for physics-grounded image-to-video generation with physical
parameters and force control. At its core is a generative physics network that
learns the distribution of physical dynamics across four materials (elastic,
sand, plasticine, and rigid) via a diffusion model conditioned on physics
parameters and applied forces. We represent physical dynamics as 3D point
trajectories and train on a large-scale synthetic dataset of 550K animations
generated by physics simulators. We enhance the diffusion model with a novel
spatiotemporal attention block that emulates particle interactions and
incorporates physics-based constraints during training to enforce physical
plausibility. Experiments show that PhysCtrl generates realistic,
physics-grounded motion trajectories which, when used to drive image-to-video
models, yield high-fidelity, controllable videos that outperform existing
methods in both visual quality and physical plausibility. Project Page:
https://cwchenwang.github.io/physctrl