Dinâmica Gerativa de Imagens
Generative Image Dynamics
September 14, 2023
Autores: Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
cs.AI
Resumo
Apresentamos uma abordagem para modelar um prior no espaço de imagem sobre a dinâmica de cenas. Nosso prior é aprendido a partir de uma coleção de trajetórias de movimento extraídas de sequências de vídeo reais que contêm movimentos naturais e oscilatórios, como árvores, flores, velas e roupas balançando ao vento. Dada uma única imagem, nosso modelo treinado utiliza um processo de amostragem de difusão coordenado por frequência para prever uma representação de movimento de longo prazo por pixel no domínio de Fourier, que denominamos textura de movimento estocástico neural. Essa representação pode ser convertida em trajetórias de movimento densas que abrangem um vídeo inteiro. Juntamente com um módulo de renderização baseado em imagem, essas trajetórias podem ser utilizadas para diversas aplicações subsequentes, como transformar imagens estáticas em vídeos dinâmicos que se repetem de forma contínua, ou permitir que os usuários interajam de maneira realista com objetos em fotografias reais.
English
We present an approach to modeling an image-space prior on scene dynamics.
Our prior is learned from a collection of motion trajectories extracted from
real video sequences containing natural, oscillating motion such as trees,
flowers, candles, and clothes blowing in the wind. Given a single image, our
trained model uses a frequency-coordinated diffusion sampling process to
predict a per-pixel long-term motion representation in the Fourier domain,
which we call a neural stochastic motion texture. This representation can be
converted into dense motion trajectories that span an entire video. Along with
an image-based rendering module, these trajectories can be used for a number of
downstream applications, such as turning still images into seamlessly looping
dynamic videos, or allowing users to realistically interact with objects in
real pictures.