Generatieve Tussenbeelden: Aanpassing van Beeld-naar-Video Modellen voor Sleutelframe Interpolatie

Samenvatting

We presenteren een methode voor het genereren van videosequenties met coherente beweging tussen een paar invoer keyframes. We passen een vooraf getraind grootschalig beeld-naar-video diffusiemodel aan (oorspronkelijk getraind om video's te genereren die voorwaarts in de tijd bewegen vanuit een enkel invoerbeeld) voor keyframe-interpolatie, d.w.z. om een video te produceren tussen twee invoerframes. We bereiken deze aanpassing door middel van een lichtgewicht fine-tuningtechniek die een versie van het model produceert dat in plaats daarvan video's voorspelt die achterwaarts in de tijd bewegen vanuit een enkel invoerbeeld. Dit model (samen met het originele voorwaarts bewegende model) wordt vervolgens gebruikt in een bidirectioneel diffusiebemonsteringsproces dat de overlappende modelvoorspellingen combineert die starten vanuit elk van de twee keyframes. Onze experimenten tonen aan dat onze methode zowel bestaande diffusiegebaseerde methoden als traditionele frame-interpolatietechnieken overtreft.

English

We present a method for generating video sequences with coherent motion between a pair of input key frames. We adapt a pretrained large-scale image-to-video diffusion model (originally trained to generate videos moving forward in time from a single input image) for key frame interpolation, i.e., to produce a video in between two input frames. We accomplish this adaptation through a lightweight fine-tuning technique that produces a version of the model that instead predicts videos moving backwards in time from a single input image. This model (along with the original forward-moving model) is subsequently used in a dual-directional diffusion sampling process that combines the overlapping model estimates starting from each of the two keyframes. Our experiments show that our method outperforms both existing diffusion-based methods and traditional frame interpolation techniques.

Generatieve Tussenbeelden: Aanpassing van Beeld-naar-Video Modellen voor Sleutelframe Interpolatie

Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Samenvatting

Summary

Support

Support