Interpolation explorative du temps et de l'espace

papers.abstract

Nous introduisons la génération bornée comme une tâche généralisée pour contrôler la génération vidéo afin de synthétiser des mouvements arbitraires de caméra et de sujet en se basant uniquement sur une image de départ et une image de fin données. Notre objectif est de tirer pleinement parti de la capacité de généralisation inhérente d'un modèle image-à-vidéo sans entraînement supplémentaire ni ajustement fin du modèle original. Cela est réalisé grâce à une nouvelle stratégie d'échantillonnage proposée, que nous appelons Fusion par Inversion Temporelle, qui fusionne les chemins de débruîtage temporellement avant et arrière conditionnés respectivement sur l'image de départ et l'image de fin. Le chemin fusionné produit une vidéo qui relie de manière fluide les deux images, générant un entrelacement fidèle du mouvement du sujet, des vues nouvelles de scènes statiques, et une boucle vidéo sans couture lorsque les deux images bornées sont identiques. Nous constituons un ensemble de données d'évaluation diversifié de paires d'images et comparons avec les méthodes existantes les plus proches. Nous constatons que la Fusion par Inversion Temporelle surpasse les travaux connexes sur toutes les sous-tâches, démontrant la capacité à générer des mouvements complexes et des vues cohérentes en 3D guidées par des images bornées. Consultez la page du projet à l'adresse https://time-reversal.github.io.

English

We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

Interpolation explorative du temps et de l'espace

Explorative Inbetweening of Time and Space

papers.abstract

Support