PhysGen: Generación de Imágenes a Video Basada en Física de Cuerpos Rígidos

Resumen

Presentamos PhysGen, un novedoso método de generación de imágenes a video que convierte una sola imagen y una condición de entrada (por ejemplo, fuerza y torque aplicados a un objeto en la imagen) para producir un video realista, físicamente plausible y temporalmente consistente. Nuestra idea clave es integrar una simulación física basada en modelos con un proceso de generación de video basado en datos, lo que permite dinámicas plausibles en el espacio de la imagen. En el núcleo de nuestro sistema se encuentran tres componentes principales: (i) un módulo de comprensión de imágenes que captura eficazmente la geometría, los materiales y los parámetros físicos de la imagen; (ii) un modelo de simulación de dinámicas en el espacio de la imagen que utiliza física de cuerpos rígidos y parámetros inferidos para simular comportamientos realistas; y (iii) un módulo de renderizado y refinamiento basado en imágenes que aprovecha la difusión de video generativa para producir metraje de video realista con el movimiento simulado. Los videos resultantes son realistas tanto en física como en apariencia, e incluso son precisamente controlables, mostrando resultados superiores sobre trabajos existentes de generación de imágenes a video basados en datos mediante comparaciones cuantitativas y estudios de usuario exhaustivos. Los videos resultantes de PhysGen pueden ser utilizados para diversas aplicaciones posteriores, como convertir una imagen en una animación realista o permitir a los usuarios interactuar con la imagen y crear diversas dinámicas. Página del proyecto: https://stevenlsw.github.io/physgen/

English

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

PhysGen: Generación de Imágenes a Video Basada en Física de Cuerpos Rígidos

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Resumen

Support