Exploratieve Tussenvoeging van Tijd en Ruimte

Samenvatting

We introduceren begrensde generatie als een gegeneraliseerde taak om videogeneratie te beheersen voor het synthetiseren van willekeurige camerabewegingen en onderwerpbewegingen, uitsluitend gebaseerd op een gegeven start- en eindframe. Ons doel is om het inherente generalisatievermogen van een beeld-naar-video-model volledig te benutten zonder aanvullende training of fine-tuning van het oorspronkelijke model. Dit wordt bereikt door de voorgestelde nieuwe samplingstrategie, die we Time Reversal Fusion noemen, waarbij de temporeel voorwaartse en achterwaartse denoising-paden worden samengevoegd, geconditioneerd op respectievelijk het start- en eindframe. Het samengevoegde pad resulteert in een video die de twee frames soepel verbindt, waarbij tussenliggende bewegingen van het onderwerp worden gegenereerd, nieuwe aanzichten van statische scènes worden gecreëerd, en naadloze videolussen worden gegenereerd wanneer de twee begrenzende frames identiek zijn. We hebben een diverse evaluatiedataset van beeldparen samengesteld en vergeleken met de meest verwante bestaande methoden. We constateren dat Time Reversal Fusion de gerelateerde werkwijzen overtreft op alle subtaken, waarbij het vermogen wordt getoond om complexe bewegingen en 3D-consistente aanzichten te genereren, geleid door de begrensde frames. Zie het projectpagina op https://time-reversal.github.io.

English

We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

Exploratieve Tussenvoeging van Tijd en Ruimte

Explorative Inbetweening of Time and Space

Samenvatting

Support