TLB-VFI: Temporal-bewusste latente Brownsche Brückendiffusion für Video-Frame-Interpolation
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
papers.authors: Zonglin Lyu, Chen Chen
cs.AI
papers.abstract
Video Frame Interpolation (VFI) zielt darauf ab, den Zwischenrahmen I_n (wir verwenden n, um die Zeit in Videos zu bezeichnen, um eine Überladung der Notation mit dem Zeitschritt t in Diffusionsmodellen zu vermeiden) basierend auf zwei aufeinanderfolgenden benachbarten Rahmen I_0 und I_1 vorherzusagen. Aktuelle Ansätze wenden Diffusionsmodelle (sowohl bildbasierte als auch videobasierte) für diese Aufgabe an und erzielen starke Leistungen. Bildbasierte Diffusionsmodelle können jedoch keine zeitlichen Informationen extrahieren und sind im Vergleich zu nicht-diffusionsbasierten Methoden relativ ineffizient. Videobasierte Diffusionsmodelle können zeitliche Informationen extrahieren, sind jedoch in Bezug auf den Trainingsumfang, die Modellgröße und die Inferenzzeit zu groß. Um die oben genannten Probleme zu mildern, schlagen wir Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI) vor, ein effizientes videobasiertes Diffusionsmodell. Durch die Extraktion reichhaltiger zeitlicher Informationen aus Videoeingaben mittels unseres vorgeschlagenen 3D-Wavelet-Gating und des zeitlich bewussten Autoencoders erzielt unsere Methode eine Verbesserung des FID um 20 % auf den anspruchsvollsten Datensätzen im Vergleich zu den aktuellen State-of-the-Art bildbasierten Diffusionsmodellen. Gleichzeitig erreicht unsere Methode aufgrund der Existenz reichhaltiger zeitlicher Informationen eine starke Leistung bei dreimal weniger Parametern. Eine solche Parameterreduktion führt zu einer 2,3-fachen Beschleunigung. Durch die Einbindung von optischem Fluss benötigt unsere Methode 9000-mal weniger Trainingsdaten und erreicht über 20-mal weniger Parameter als videobasierte Diffusionsmodelle. Codes und Ergebnisse sind auf unserer Projektseite verfügbar: https://zonglinl.github.io/tlbvfi_page.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.