PhysGen : Génération d'images en vidéo ancrée dans la physique des corps rigides

papers.abstract

Nous présentons PhysGen, une nouvelle méthode de génération d'images en vidéos qui convertit une seule image et une condition d'entrée (par exemple, la force et le couple appliqués à un objet dans l'image) pour produire une vidéo réaliste, physiquement plausible et temporellement cohérente. Notre insight clé est d'intégrer une simulation physique basée sur un modèle avec un processus de génération de vidéos basé sur les données, permettant des dynamiques plausibles dans l'espace des images. Au cœur de notre système se trouvent trois composants principaux : (i) un module de compréhension des images qui capture efficacement la géométrie, les matériaux et les paramètres physiques de l'image ; (ii) un modèle de simulation des dynamiques dans l'espace des images qui utilise la physique des corps rigides et les paramètres inférés pour simuler des comportements réalistes ; et (iii) un module de rendu et de raffinement basé sur l'image qui exploite la diffusion vidéo générative pour produire des séquences vidéo réalistes présentant le mouvement simulé. Les vidéos résultantes sont réalistes à la fois du point de vue physique et visuel, et sont même précisément contrôlables, démontrant des résultats supérieurs par rapport aux travaux existants de génération d'images en vidéos basée sur les données, grâce à des comparaisons quantitatives et à une étude utilisateur complète. Les vidéos résultantes de PhysGen peuvent être utilisées pour diverses applications ultérieures, telles que transformer une image en une animation réaliste ou permettre aux utilisateurs d'interagir avec l'image et de créer diverses dynamiques. Page du projet : https://stevenlsw.github.io/physgen/

English

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

PhysGen : Génération d'images en vidéo ancrée dans la physique des corps rigides

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

papers.abstract

Support