ChatPaper.aiChatPaper

PhysGen: Bild-zu-Video-Generierung mit starren Körperphysik-Grundlagen

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

September 27, 2024
Autoren: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI

Zusammenfassung

Wir präsentieren PhysGen, eine innovative Methode zur Generierung von Bildern zu Videos, die ein einzelnes Bild und eine Eingangsbedingung (z. B. die auf ein Objekt im Bild angewandte Kraft und das Drehmoment) in ein realistisches, physikalisch plausibles und zeitlich konsistentes Video umwandelt. Unser Schlüsselerkenntnis besteht darin, modellbasierte physikalische Simulation mit einem datengesteuerten Videoerstellungsprozess zu integrieren, um plausible Dynamik im Bildraum zu ermöglichen. Im Zentrum unseres Systems stehen drei Kernkomponenten: (i) ein Bildverständnis-Modul, das effektiv die Geometrie, Materialien und physikalischen Parameter des Bildes erfasst; (ii) ein Bildraum-Dynamik-Simulationsmodell, das starre Körperphysik und abgeleitete Parameter nutzt, um realistische Verhaltensweisen zu simulieren; und (iii) ein bildbasiertes Rendering- und Verfeinerungsmodul, das die generative Videodiffusion nutzt, um realistische Videomaterialien mit der simulierten Bewegung zu erzeugen. Die resultierenden Videos sind sowohl physikalisch als auch optisch realistisch und sogar präzise steuerbar, was über quantitative Vergleiche und umfassende Benutzerstudien überlegene Ergebnisse im Vergleich zu bestehenden datengesteuerten Bild-zu-Video-Generierungswerken zeigt. Die resultierenden Videos von PhysGen können für verschiedene nachgelagerte Anwendungen verwendet werden, wie die Umwandlung eines Bildes in eine realistische Animation oder die Ermöglichung von Benutzerinteraktionen mit dem Bild zur Erzeugung verschiedener Dynamiken. Projektseite: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

Summary

AI-Generated Summary

PDF272November 16, 2024