TLB-VFI: Difusão de Ponte Browniana Latente com Consciência Temporal para Interpolação de Quadros de Vídeo
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
Autores: Zonglin Lyu, Chen Chen
cs.AI
Resumo
A Interpolação de Quadros de Vídeo (VFI) tem como objetivo prever o quadro intermediário I_n (usamos n para denotar o tempo em vídeos para evitar sobrecarga de notação com o passo de tempo t em modelos de difusão) com base em dois quadros consecutivos vizinhos I_0 e I_1. Abordagens recentes aplicam modelos de difusão (tanto baseados em imagem quanto em vídeo) nessa tarefa e alcançam um desempenho robusto. No entanto, modelos de difusão baseados em imagem são incapazes de extrair informações temporais e são relativamente ineficientes em comparação com métodos que não utilizam difusão. Modelos de difusão baseados em vídeo podem extrair informações temporais, mas são excessivamente grandes em termos de escala de treinamento, tamanho do modelo e tempo de inferência. Para mitigar esses problemas, propomos o Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), um modelo de difusão baseado em vídeo eficiente. Ao extrair informações temporais ricas das entradas de vídeo por meio de nossa proposta de portão de wavelet 3D e autoencoder temporal-aware, nosso método alcança uma melhoria de 20% no FID nos conjuntos de dados mais desafiadores em relação aos recentes modelos de difusão baseados em imagem de última geração. Além disso, devido à existência de informações temporais ricas, nosso método alcança um desempenho robusto enquanto possui 3 vezes menos parâmetros. Essa redução de parâmetros resulta em uma aceleração de 2,3 vezes. Ao incorporar orientação de fluxo óptico, nosso método requer 9000 vezes menos dados de treinamento e alcança mais de 20 vezes menos parâmetros do que modelos de difusão baseados em vídeo. Códigos e resultados estão disponíveis em nossa página do projeto: https://zonglinl.github.io/tlbvfi_page.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.