Generatieve Beelddynamiek
Generative Image Dynamics
September 14, 2023
Auteurs: Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
cs.AI
Samenvatting
We presenteren een aanpak voor het modelleren van een prior in de beeldruimte voor scènedynamica. Onze prior wordt geleerd uit een verzameling bewegingsbanen die zijn geëxtraheerd uit echte videosequenties met natuurlijke, oscillerende bewegingen zoals bomen, bloemen, kaarsen en kleding die in de wind wapperen. Gegeven een enkele afbeelding, gebruikt ons getrainde model een frequentie-gestuurd diffusie-steekproefproces om een per-pixel langetermijnbewegingsrepresentatie in het Fourier-domein te voorspellen, die we een neurale stochastische bewegingsstructuur noemen. Deze representatie kan worden omgezet in dichte bewegingsbanen die een hele video omvatten. Samen met een op afbeeldingen gebaseerde weergavemodule kunnen deze banen worden gebruikt voor een aantal downstream toepassingen, zoals het omzetten van stilstaande afbeeldingen in naadloos herhalende dynamische video's, of het gebruikers in staat stellen om realistisch te interageren met objecten in echte foto's.
English
We present an approach to modeling an image-space prior on scene dynamics.
Our prior is learned from a collection of motion trajectories extracted from
real video sequences containing natural, oscillating motion such as trees,
flowers, candles, and clothes blowing in the wind. Given a single image, our
trained model uses a frequency-coordinated diffusion sampling process to
predict a per-pixel long-term motion representation in the Fourier domain,
which we call a neural stochastic motion texture. This representation can be
converted into dense motion trajectories that span an entire video. Along with
an image-based rendering module, these trajectories can be used for a number of
downstream applications, such as turning still images into seamlessly looping
dynamic videos, or allowing users to realistically interact with objects in
real pictures.