TLB-VFI: Difusão de Ponte Browniana Latente com Consciência Temporal para Interpolação de Quadros de Vídeo

Resumo

A Interpolação de Quadros de Vídeo (VFI) tem como objetivo prever o quadro intermediário I_n (usamos n para denotar o tempo em vídeos para evitar sobrecarga de notação com o passo de tempo t em modelos de difusão) com base em dois quadros consecutivos vizinhos I_0 e I_1. Abordagens recentes aplicam modelos de difusão (tanto baseados em imagem quanto em vídeo) nessa tarefa e alcançam um desempenho robusto. No entanto, modelos de difusão baseados em imagem são incapazes de extrair informações temporais e são relativamente ineficientes em comparação com métodos que não utilizam difusão. Modelos de difusão baseados em vídeo podem extrair informações temporais, mas são excessivamente grandes em termos de escala de treinamento, tamanho do modelo e tempo de inferência. Para mitigar esses problemas, propomos o Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), um modelo de difusão baseado em vídeo eficiente. Ao extrair informações temporais ricas das entradas de vídeo por meio de nossa proposta de portão de wavelet 3D e autoencoder temporal-aware, nosso método alcança uma melhoria de 20% no FID nos conjuntos de dados mais desafiadores em relação aos recentes modelos de difusão baseados em imagem de última geração. Além disso, devido à existência de informações temporais ricas, nosso método alcança um desempenho robusto enquanto possui 3 vezes menos parâmetros. Essa redução de parâmetros resulta em uma aceleração de 2,3 vezes. Ao incorporar orientação de fluxo óptico, nosso método requer 9000 vezes menos dados de treinamento e alcança mais de 20 vezes menos parâmetros do que modelos de difusão baseados em vídeo. Códigos e resultados estão disponíveis em nossa página do projeto: https://zonglinl.github.io/tlbvfi_page.

English

Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n (we use n to denote time in videos to avoid notation overload with the timestep t in diffusion models) based on two consecutive neighboring frames I_0 and I_1. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.

TLB-VFI: Difusão de Ponte Browniana Latente com Consciência Temporal para Interpolação de Quadros de Vídeo

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Resumo

Support