PhysGen: Beeld-naar-video generatie gegrond in starre lichaamsfysica
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
September 27, 2024
Auteurs: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI
Samenvatting
We presenteren PhysGen, een nieuw methode voor het genereren van beeld-naar-video die een enkele afbeelding en een invoerconditie (bijv. kracht en koppel toegepast op een object in de afbeelding) omzet om een realistische, fysiek plausibele en temporeel consistente video te produceren. Ons belangrijk inzicht is om op model gebaseerde fysieke simulatie te integreren met een op data gebaseerd video-generatieproces, waardoor plausibele dynamiek in de beeldruimte mogelijk wordt. In de kern van ons systeem bevinden zich drie kerncomponenten: (i) een beeldbegrijpingsmodule die effectief de geometrie, materialen en fysieke parameters van de afbeelding vastlegt; (ii) een beeldruimte dynamische simulatiemodel dat starre lichaamsfysica en afgeleide parameters gebruikt om realistisch gedrag te simuleren; en (iii) een op beeld gebaseerde renderings- en verfijningsmodule die generatieve videodiffusie benut om realistische videobeelden te produceren met de gesimuleerde beweging. De resulterende video's zijn realistisch zowel qua fysica als uiterlijk en zijn zelfs nauwkeurig controleerbaar, met superieure resultaten ten opzichte van bestaande op data gebaseerde beeld-naar-video generatiewerken via kwantitatieve vergelijking en uitgebreide gebruikersstudie. De resulterende video's van PhysGen kunnen worden gebruikt voor verschillende downstream-toepassingen, zoals het omzetten van een afbeelding in een realistische animatie of het mogelijk maken voor gebruikers om met de afbeelding te interacteren en verschillende dynamieken te creëren. Projectpagina: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a
single image and an input condition (e.g., force and torque applied to an
object in the image) to produce a realistic, physically plausible, and
temporally consistent video. Our key insight is to integrate model-based
physical simulation with a data-driven video generation process, enabling
plausible image-space dynamics. At the heart of our system are three core
components: (i) an image understanding module that effectively captures the
geometry, materials, and physical parameters of the image; (ii) an image-space
dynamics simulation model that utilizes rigid-body physics and inferred
parameters to simulate realistic behaviors; and (iii) an image-based rendering
and refinement module that leverages generative video diffusion to produce
realistic video footage featuring the simulated motion. The resulting videos
are realistic in both physics and appearance and are even precisely
controllable, showcasing superior results over existing data-driven
image-to-video generation works through quantitative comparison and
comprehensive user study. PhysGen's resulting videos can be used for various
downstream applications, such as turning an image into a realistic animation or
allowing users to interact with the image and create various dynamics. Project
page: https://stevenlsw.github.io/physgen/Summary
AI-Generated Summary