TLB-VFI: Tijdbewuste Latente Brownse Brug Diffusie voor Video Frame Interpolatie
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
Auteurs: Zonglin Lyu, Chen Chen
cs.AI
Samenvatting
Video Frame Interpolation (VFI) heeft als doel het tussenliggende frame I_n te voorspellen (we gebruiken n om tijd in video's aan te duiden om verwarring te voorkomen met de tijdstap t in diffusiemodellen) op basis van twee opeenvolgende naburige frames I_0 en I_1. Recente benaderingen passen diffusiemodellen (zowel op afbeeldingen als video's gebaseerd) toe in deze taak en behalen sterke prestaties. Afbeelding-gebaseerde diffusiemodellen zijn echter niet in staat om temporele informatie te extraheren en zijn relatief inefficiënt vergeleken met niet-diffusiemethoden. Video-gebaseerde diffusiemodellen kunnen wel temporele informatie extraheren, maar ze zijn te groot wat betreft trainingsschaal, modelgrootte en inferentietijd. Om deze problemen te verlichten, stellen we Temporal-Aware Latent Brownian Bridge Diffusion voor Video Frame Interpolation (TLB-VFI) voor, een efficiënt video-gebaseerd diffusiemodel. Door rijke temporele informatie uit video-invoer te extraheren via onze voorgestelde 3D-wavelet gating en temporeel bewuste autoencoder, behaalt onze methode een verbetering van 20% in FID op de meest uitdagende datasets vergeleken met recente state-of-the-art afbeelding-gebaseerde diffusiemodellen. Tegelijkertijd, dankzij de aanwezigheid van rijke temporele informatie, behaalt onze methode sterke prestaties terwijl het 3 keer minder parameters heeft. Een dergelijke parameterreductie resulteert in een 2,3x snellere verwerking. Door optische stroombegeleiding te integreren, vereist onze methode 9000x minder trainingsdata en behaalt het meer dan 20x minder parameters dan video-gebaseerde diffusiemodellen. Codes en resultaten zijn beschikbaar op onze projectpagina: https://zonglinl.github.io/tlbvfi_page.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.