Interpolation explorative du temps et de l'espace
Explorative Inbetweening of Time and Space
March 21, 2024
Auteurs: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI
Résumé
Nous introduisons la génération bornée comme une tâche généralisée pour contrôler la génération vidéo afin de synthétiser des mouvements arbitraires de caméra et de sujet en se basant uniquement sur une image de départ et une image de fin données. Notre objectif est de tirer pleinement parti de la capacité de généralisation inhérente d'un modèle image-à-vidéo sans entraînement supplémentaire ni ajustement fin du modèle original. Cela est réalisé grâce à une nouvelle stratégie d'échantillonnage proposée, que nous appelons Fusion par Inversion Temporelle, qui fusionne les chemins de débruîtage temporellement avant et arrière conditionnés respectivement sur l'image de départ et l'image de fin. Le chemin fusionné produit une vidéo qui relie de manière fluide les deux images, générant un entrelacement fidèle du mouvement du sujet, des vues nouvelles de scènes statiques, et une boucle vidéo sans couture lorsque les deux images bornées sont identiques. Nous constituons un ensemble de données d'évaluation diversifié de paires d'images et comparons avec les méthodes existantes les plus proches. Nous constatons que la Fusion par Inversion Temporelle surpasse les travaux connexes sur toutes les sous-tâches, démontrant la capacité à générer des mouvements complexes et des vues cohérentes en 3D guidées par des images bornées. Consultez la page du projet à l'adresse https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video
generation to synthesize arbitrary camera and subject motion based only on a
given start and end frame. Our objective is to fully leverage the inherent
generalization capability of an image-to-video model without additional
training or fine-tuning of the original model. This is achieved through the
proposed new sampling strategy, which we call Time Reversal Fusion, that fuses
the temporally forward and backward denoising paths conditioned on the start
and end frame, respectively. The fused path results in a video that smoothly
connects the two frames, generating inbetweening of faithful subject motion,
novel views of static scenes, and seamless video looping when the two bounding
frames are identical. We curate a diverse evaluation dataset of image pairs and
compare against the closest existing methods. We find that Time Reversal Fusion
outperforms related work on all subtasks, exhibiting the ability to generate
complex motions and 3D-consistent views guided by bounded frames. See project
page at https://time-reversal.github.io.Summary
AI-Generated Summary