Generazione di Interpolazioni: Adattamento dei Modelli Immagine-Video per l'Interpolazione dei Fotogrammi Chiave

Abstract

Presentiamo un metodo per generare sequenze video con un movimento coerente tra una coppia di fotogrammi chiave di input. Adattiamo un modello di diffusione immagine-video su larga scala preaddestrato (originariamente addestrato per generare video in avanti nel tempo da un'immagine di input singola) per l'interpolazione dei fotogrammi chiave, cioè per produrre un video tra due fotogrammi di input. Realizziamo questa adattamento attraverso una tecnica di messa a punto leggera che produce una versione del modello che invece predice video che si muovono all'indietro nel tempo da un'immagine di input singola. Questo modello (insieme al modello originale in avanti) viene successivamente utilizzato in un processo di campionamento di diffusione bidirezionale che combina le stime del modello sovrapposte a partire da ciascuno dei due fotogrammi chiave. I nostri esperimenti mostrano che il nostro metodo supera sia i metodi basati sulla diffusione esistenti che le tecniche tradizionali di interpolazione dei fotogrammi.

English

We present a method for generating video sequences with coherent motion between a pair of input key frames. We adapt a pretrained large-scale image-to-video diffusion model (originally trained to generate videos moving forward in time from a single input image) for key frame interpolation, i.e., to produce a video in between two input frames. We accomplish this adaptation through a lightweight fine-tuning technique that produces a version of the model that instead predicts videos moving backwards in time from a single input image. This model (along with the original forward-moving model) is subsequently used in a dual-directional diffusion sampling process that combines the overlapping model estimates starting from each of the two keyframes. Our experiments show that our method outperforms both existing diffusion-based methods and traditional frame interpolation techniques.

Generazione di Interpolazioni: Adattamento dei Modelli Immagine-Video per l'Interpolazione dei Fotogrammi Chiave

Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Abstract

Summary

Support

Support