ChatPaper.aiChatPaper

PhysGen: Generazione di video da immagini basata sulla fisica dei corpi rigidi

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

September 27, 2024
Autori: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI

Abstract

Presentiamo PhysGen, un nuovo metodo di generazione di video da immagine che converte una singola immagine e una condizione di input (ad esempio, forza e coppia applicate a un oggetto nell'immagine) per produrre un video realistico, fisicamente plausibile e temporalmente coerente. La nostra intuizione chiave è integrare la simulazione fisica basata su modelli con un processo di generazione video basato sui dati, consentendo dinamiche plausibili nello spazio delle immagini. Al cuore del nostro sistema ci sono tre componenti principali: (i) un modulo di comprensione dell'immagine che cattura efficacemente la geometria, i materiali e i parametri fisici dell'immagine; (ii) un modello di simulazione delle dinamiche nello spazio delle immagini che utilizza la fisica dei corpi rigidi e i parametri inferiti per simulare comportamenti realistici; e (iii) un modulo di rendering e perfezionamento basato sull'immagine che sfrutta la diffusione video generativa per produrre sequenze video realistiche con il movimento simulato. I video risultanti sono realistici sia dal punto di vista fisico che estetico e sono addirittura precisamente controllabili, mostrando risultati superiori rispetto ai lavori esistenti di generazione di video da immagine basati sui dati attraverso confronti quantitativi e uno studio utente completo. I video risultanti di PhysGen possono essere utilizzati per varie applicazioni successive, come trasformare un'immagine in un'animazione realistica o consentire agli utenti di interagire con l'immagine e creare varie dinamiche. Pagina del progetto: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

Summary

AI-Generated Summary

PDF272November 16, 2024