TLB-VFI: Diffusione Latente con Ponte Browniano Temporale per l'Interpolazione di Fotogrammi Video
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
Autori: Zonglin Lyu, Chen Chen
cs.AI
Abstract
La Video Frame Interpolation (VFI) mira a prevedere il frame intermedio I_n
(utilizziamo n per denotare il tempo nei video per evitare sovrapposizioni di notazione con il passo temporale
t nei modelli di diffusione) basandosi su due frame consecutivi adiacenti I_0 e
I_1. Approcci recenti applicano modelli di diffusione (sia basati su immagini che
su video) in questo compito e ottengono prestazioni significative. Tuttavia, i modelli di diffusione basati su immagini non sono in grado di estrarre informazioni temporali e sono relativamente
inefficienti rispetto ai metodi non basati sulla diffusione. I modelli di diffusione basati su video possono
estrarre informazioni temporali, ma sono troppo grandi in termini di scala di addestramento,
dimensione del modello e tempo di inferenza. Per mitigare i problemi sopra citati, proponiamo
il Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), un modello di diffusione basato su video efficiente. Estraendo ricche
informazioni temporali dagli input video attraverso la nostra proposta di 3D-wavelet gating
e autoencoder temporale, il nostro metodo ottiene un miglioramento del 20% nell'FID sui
dataset più impegnativi rispetto ai recenti SOTA dei modelli di diffusione basati su immagini.
Nel frattempo, grazie alla presenza di ricche informazioni temporali, il nostro metodo
ottiene prestazioni significative pur avendo 3 volte meno parametri. Tale riduzione dei parametri
si traduce in un'accelerazione di 2,3 volte. Incorporando la guida del flusso ottico,
il nostro metodo richiede 9000 volte meno dati di addestramento e ottiene oltre 20 volte
meno parametri rispetto ai modelli di diffusione basati su video. Codici e risultati sono
disponibili sulla nostra pagina del progetto: https://zonglinl.github.io/tlbvfi_page.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.