PhysGen: Beeld-naar-video generatie gegrond in starre lichaamsfysica

Samenvatting

We presenteren PhysGen, een nieuw methode voor het genereren van beeld-naar-video die een enkele afbeelding en een invoerconditie (bijv. kracht en koppel toegepast op een object in de afbeelding) omzet om een realistische, fysiek plausibele en temporeel consistente video te produceren. Ons belangrijk inzicht is om op model gebaseerde fysieke simulatie te integreren met een op data gebaseerd video-generatieproces, waardoor plausibele dynamiek in de beeldruimte mogelijk wordt. In de kern van ons systeem bevinden zich drie kerncomponenten: (i) een beeldbegrijpingsmodule die effectief de geometrie, materialen en fysieke parameters van de afbeelding vastlegt; (ii) een beeldruimte dynamische simulatiemodel dat starre lichaamsfysica en afgeleide parameters gebruikt om realistisch gedrag te simuleren; en (iii) een op beeld gebaseerde renderings- en verfijningsmodule die generatieve videodiffusie benut om realistische videobeelden te produceren met de gesimuleerde beweging. De resulterende video's zijn realistisch zowel qua fysica als uiterlijk en zijn zelfs nauwkeurig controleerbaar, met superieure resultaten ten opzichte van bestaande op data gebaseerde beeld-naar-video generatiewerken via kwantitatieve vergelijking en uitgebreide gebruikersstudie. De resulterende video's van PhysGen kunnen worden gebruikt voor verschillende downstream-toepassingen, zoals het omzetten van een afbeelding in een realistische animatie of het mogelijk maken voor gebruikers om met de afbeelding te interacteren en verschillende dynamieken te creëren. Projectpagina: https://stevenlsw.github.io/physgen/

English

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

PhysGen: Beeld-naar-video generatie gegrond in starre lichaamsfysica

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Samenvatting

Support