Generatieve Tussenbeelden: Aanpassing van Beeld-naar-Video Modellen voor Sleutelframe Interpolatie
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation
August 27, 2024
Auteurs: Xiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz
cs.AI
Samenvatting
We presenteren een methode voor het genereren van videosequenties met coherente beweging tussen een paar invoer keyframes. We passen een vooraf getraind grootschalig beeld-naar-video diffusiemodel aan (oorspronkelijk getraind om video's te genereren die voorwaarts in de tijd bewegen vanuit een enkel invoerbeeld) voor keyframe-interpolatie, d.w.z. om een video te produceren tussen twee invoerframes. We bereiken deze aanpassing door middel van een lichtgewicht fine-tuningtechniek die een versie van het model produceert dat in plaats daarvan video's voorspelt die achterwaarts in de tijd bewegen vanuit een enkel invoerbeeld. Dit model (samen met het originele voorwaarts bewegende model) wordt vervolgens gebruikt in een bidirectioneel diffusiebemonsteringsproces dat de overlappende modelvoorspellingen combineert die starten vanuit elk van de twee keyframes. Onze experimenten tonen aan dat onze methode zowel bestaande diffusiegebaseerde methoden als traditionele frame-interpolatietechnieken overtreft.
English
We present a method for generating video sequences with coherent motion
between a pair of input key frames. We adapt a pretrained large-scale
image-to-video diffusion model (originally trained to generate videos moving
forward in time from a single input image) for key frame interpolation, i.e.,
to produce a video in between two input frames. We accomplish this adaptation
through a lightweight fine-tuning technique that produces a version of the
model that instead predicts videos moving backwards in time from a single input
image. This model (along with the original forward-moving model) is
subsequently used in a dual-directional diffusion sampling process that
combines the overlapping model estimates starting from each of the two
keyframes. Our experiments show that our method outperforms both existing
diffusion-based methods and traditional frame interpolation techniques.Summary
AI-Generated Summary