PhysGen: Geração de Imagens para Vídeos Baseada em Física de Corpos Rígidos
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
September 27, 2024
Autores: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI
Resumo
Apresentamos o PhysGen, um novo método de geração de imagem para vídeo que converte uma única imagem e uma condição de entrada (por exemplo, força e torque aplicados a um objeto na imagem) para produzir um vídeo realista, fisicamente plausível e temporalmente consistente. Nosso insight chave é integrar simulação física baseada em modelo com um processo de geração de vídeo baseado em dados, permitindo dinâmicas plausíveis no espaço da imagem. No cerne do nosso sistema estão três componentes principais: (i) um módulo de compreensão de imagem que captura efetivamente a geometria, materiais e parâmetros físicos da imagem; (ii) um modelo de simulação de dinâmica no espaço da imagem que utiliza física de corpos rígidos e parâmetros inferidos para simular comportamentos realistas; e (iii) um módulo de renderização e refinamento baseado em imagem que aproveita a difusão de vídeo generativa para produzir filmagens realistas apresentando o movimento simulado. Os vídeos resultantes são realistas tanto em física quanto em aparência e são até mesmo precisamente controláveis, demonstrando resultados superiores em comparação quantitativa e estudo abrangente de usuários em relação a trabalhos existentes de geração de imagem para vídeo baseados em dados. Os vídeos resultantes do PhysGen podem ser usados para várias aplicações subsequentes, como transformar uma imagem em uma animação realista ou permitir que os usuários interajam com a imagem e criem várias dinâmicas. Página do projeto: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a
single image and an input condition (e.g., force and torque applied to an
object in the image) to produce a realistic, physically plausible, and
temporally consistent video. Our key insight is to integrate model-based
physical simulation with a data-driven video generation process, enabling
plausible image-space dynamics. At the heart of our system are three core
components: (i) an image understanding module that effectively captures the
geometry, materials, and physical parameters of the image; (ii) an image-space
dynamics simulation model that utilizes rigid-body physics and inferred
parameters to simulate realistic behaviors; and (iii) an image-based rendering
and refinement module that leverages generative video diffusion to produce
realistic video footage featuring the simulated motion. The resulting videos
are realistic in both physics and appearance and are even precisely
controllable, showcasing superior results over existing data-driven
image-to-video generation works through quantitative comparison and
comprehensive user study. PhysGen's resulting videos can be used for various
downstream applications, such as turning an image into a realistic animation or
allowing users to interact with the image and create various dynamics. Project
page: https://stevenlsw.github.io/physgen/Summary
AI-Generated Summary