Exploratieve Tussenvoeging van Tijd en Ruimte
Explorative Inbetweening of Time and Space
March 21, 2024
Auteurs: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI
Samenvatting
We introduceren begrensde generatie als een gegeneraliseerde taak om videogeneratie te beheersen voor het synthetiseren van willekeurige camerabewegingen en onderwerpbewegingen, uitsluitend gebaseerd op een gegeven start- en eindframe. Ons doel is om het inherente generalisatievermogen van een beeld-naar-video-model volledig te benutten zonder aanvullende training of fine-tuning van het oorspronkelijke model. Dit wordt bereikt door de voorgestelde nieuwe samplingstrategie, die we Time Reversal Fusion noemen, waarbij de temporeel voorwaartse en achterwaartse denoising-paden worden samengevoegd, geconditioneerd op respectievelijk het start- en eindframe. Het samengevoegde pad resulteert in een video die de twee frames soepel verbindt, waarbij tussenliggende bewegingen van het onderwerp worden gegenereerd, nieuwe aanzichten van statische scènes worden gecreëerd, en naadloze videolussen worden gegenereerd wanneer de twee begrenzende frames identiek zijn. We hebben een diverse evaluatiedataset van beeldparen samengesteld en vergeleken met de meest verwante bestaande methoden. We constateren dat Time Reversal Fusion de gerelateerde werkwijzen overtreft op alle subtaken, waarbij het vermogen wordt getoond om complexe bewegingen en 3D-consistente aanzichten te genereren, geleid door de begrensde frames. Zie het projectpagina op https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video
generation to synthesize arbitrary camera and subject motion based only on a
given start and end frame. Our objective is to fully leverage the inherent
generalization capability of an image-to-video model without additional
training or fine-tuning of the original model. This is achieved through the
proposed new sampling strategy, which we call Time Reversal Fusion, that fuses
the temporally forward and backward denoising paths conditioned on the start
and end frame, respectively. The fused path results in a video that smoothly
connects the two frames, generating inbetweening of faithful subject motion,
novel views of static scenes, and seamless video looping when the two bounding
frames are identical. We curate a diverse evaluation dataset of image pairs and
compare against the closest existing methods. We find that Time Reversal Fusion
outperforms related work on all subtasks, exhibiting the ability to generate
complex motions and 3D-consistent views guided by bounded frames. See project
page at https://time-reversal.github.io.