PhysGen: Bild-zu-Video-Generierung mit starren Körperphysik-Grundlagen
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
September 27, 2024
Autoren: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI
Zusammenfassung
Wir präsentieren PhysGen, eine innovative Methode zur Generierung von Bildern zu Videos, die ein einzelnes Bild und eine Eingangsbedingung (z. B. die auf ein Objekt im Bild angewandte Kraft und das Drehmoment) in ein realistisches, physikalisch plausibles und zeitlich konsistentes Video umwandelt. Unser Schlüsselerkenntnis besteht darin, modellbasierte physikalische Simulation mit einem datengesteuerten Videoerstellungsprozess zu integrieren, um plausible Dynamik im Bildraum zu ermöglichen. Im Zentrum unseres Systems stehen drei Kernkomponenten: (i) ein Bildverständnis-Modul, das effektiv die Geometrie, Materialien und physikalischen Parameter des Bildes erfasst; (ii) ein Bildraum-Dynamik-Simulationsmodell, das starre Körperphysik und abgeleitete Parameter nutzt, um realistische Verhaltensweisen zu simulieren; und (iii) ein bildbasiertes Rendering- und Verfeinerungsmodul, das die generative Videodiffusion nutzt, um realistische Videomaterialien mit der simulierten Bewegung zu erzeugen. Die resultierenden Videos sind sowohl physikalisch als auch optisch realistisch und sogar präzise steuerbar, was über quantitative Vergleiche und umfassende Benutzerstudien überlegene Ergebnisse im Vergleich zu bestehenden datengesteuerten Bild-zu-Video-Generierungswerken zeigt. Die resultierenden Videos von PhysGen können für verschiedene nachgelagerte Anwendungen verwendet werden, wie die Umwandlung eines Bildes in eine realistische Animation oder die Ermöglichung von Benutzerinteraktionen mit dem Bild zur Erzeugung verschiedener Dynamiken. Projektseite: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a
single image and an input condition (e.g., force and torque applied to an
object in the image) to produce a realistic, physically plausible, and
temporally consistent video. Our key insight is to integrate model-based
physical simulation with a data-driven video generation process, enabling
plausible image-space dynamics. At the heart of our system are three core
components: (i) an image understanding module that effectively captures the
geometry, materials, and physical parameters of the image; (ii) an image-space
dynamics simulation model that utilizes rigid-body physics and inferred
parameters to simulate realistic behaviors; and (iii) an image-based rendering
and refinement module that leverages generative video diffusion to produce
realistic video footage featuring the simulated motion. The resulting videos
are realistic in both physics and appearance and are even precisely
controllable, showcasing superior results over existing data-driven
image-to-video generation works through quantitative comparison and
comprehensive user study. PhysGen's resulting videos can be used for various
downstream applications, such as turning an image into a realistic animation or
allowing users to interact with the image and create various dynamics. Project
page: https://stevenlsw.github.io/physgen/Summary
AI-Generated Summary