ChatPaper.aiChatPaper

PhysCtrl : Physique générative pour la création de vidéos contrôlables et ancrées dans la physique

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

September 24, 2025
papers.authors: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI

papers.abstract

Les modèles existants de génération vidéo excellent dans la production de vidéos photo-réalistes à partir de texte ou d'images, mais manquent souvent de plausibilité physique et de contrôlabilité 3D. Pour surmonter ces limitations, nous introduisons PhysCtrl, un nouveau cadre pour la génération vidéo à partir d'images ancrée dans la physique, avec des paramètres physiques et un contrôle des forces. Au cœur de ce système se trouve un réseau génératif de physique qui apprend la distribution des dynamiques physiques à travers quatre matériaux (élastique, sable, pâte à modeler et rigide) via un modèle de diffusion conditionné sur des paramètres physiques et des forces appliquées. Nous représentons les dynamiques physiques sous forme de trajectoires de points 3D et entraînons le modèle sur un vaste ensemble de données synthétiques de 550 000 animations générées par des simulateurs physiques. Nous améliorons le modèle de diffusion avec un nouveau bloc d'attention spatio-temporelle qui émule les interactions entre particules et intègre des contraintes basées sur la physique pendant l'entraînement pour garantir la plausibilité physique. Les expériences montrent que PhysCtrl génère des trajectoires de mouvement réalistes et ancrées dans la physique qui, lorsqu'elles sont utilisées pour piloter des modèles de génération vidéo à partir d'images, produisent des vidéos de haute fidélité et contrôlables, surpassant les méthodes existantes en termes de qualité visuelle et de plausibilité physique. Page du projet : https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl
PDF92September 25, 2025