PhysGen: Geração de Imagens para Vídeos Baseada em Física de Corpos Rígidos

Resumo

Apresentamos o PhysGen, um novo método de geração de imagem para vídeo que converte uma única imagem e uma condição de entrada (por exemplo, força e torque aplicados a um objeto na imagem) para produzir um vídeo realista, fisicamente plausível e temporalmente consistente. Nosso insight chave é integrar simulação física baseada em modelo com um processo de geração de vídeo baseado em dados, permitindo dinâmicas plausíveis no espaço da imagem. No cerne do nosso sistema estão três componentes principais: (i) um módulo de compreensão de imagem que captura efetivamente a geometria, materiais e parâmetros físicos da imagem; (ii) um modelo de simulação de dinâmica no espaço da imagem que utiliza física de corpos rígidos e parâmetros inferidos para simular comportamentos realistas; e (iii) um módulo de renderização e refinamento baseado em imagem que aproveita a difusão de vídeo generativa para produzir filmagens realistas apresentando o movimento simulado. Os vídeos resultantes são realistas tanto em física quanto em aparência e são até mesmo precisamente controláveis, demonstrando resultados superiores em comparação quantitativa e estudo abrangente de usuários em relação a trabalhos existentes de geração de imagem para vídeo baseados em dados. Os vídeos resultantes do PhysGen podem ser usados para várias aplicações subsequentes, como transformar uma imagem em uma animação realista ou permitir que os usuários interajam com a imagem e criem várias dinâmicas. Página do projeto: https://stevenlsw.github.io/physgen/

English

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

PhysGen: Geração de Imagens para Vídeos Baseada em Física de Corpos Rígidos

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Resumo

Support