TLB-VFI: Difusión de Puente Browniano Latente con Conciencia Temporal para la Interpolación de Fotogramas de Video

Resumen

La Interpolación de Fotogramas de Video (VFI, por sus siglas en inglés) tiene como objetivo predecir el fotograma intermedio I_n (utilizamos n para denotar el tiempo en los videos y evitar sobrecarga de notación con el paso de tiempo t en los modelos de difusión) basándose en dos fotogramas consecutivos vecinos I_0 e I_1. Enfoques recientes aplican modelos de difusión (tanto basados en imágenes como en video) en esta tarea y logran un rendimiento sólido. Sin embargo, los modelos de difusión basados en imágenes no pueden extraer información temporal y son relativamente ineficientes en comparación con métodos no basados en difusión. Los modelos de difusión basados en video pueden extraer información temporal, pero son demasiado grandes en términos de escala de entrenamiento, tamaño del modelo y tiempo de inferencia. Para mitigar estos problemas, proponemos el modelo de difusión Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), un modelo de difusión basado en video eficiente. Al extraer información temporal rica de las entradas de video mediante nuestra propuesta de compuerta de ondículas 3D y un autoencoder consciente del tiempo, nuestro método logra una mejora del 20% en FID en los conjuntos de datos más desafiantes en comparación con los últimos modelos de difusión basados en imágenes de vanguardia (SOTA). Además, debido a la existencia de información temporal rica, nuestro método alcanza un rendimiento sólido mientras utiliza 3 veces menos parámetros. Esta reducción de parámetros resulta en una aceleración de 2.3x. Al incorporar guía de flujo óptico, nuestro método requiere 9000 veces menos datos de entrenamiento y logra más de 20 veces menos parámetros que los modelos de difusión basados en video. Los códigos y resultados están disponibles en nuestra página del proyecto: https://zonglinl.github.io/tlbvfi_page.

English

Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n (we use n to denote time in videos to avoid notation overload with the timestep t in diffusion models) based on two consecutive neighboring frames I_0 and I_1. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.

TLB-VFI: Difusión de Puente Browniano Latente con Conciencia Temporal para la Interpolación de Fotogramas de Video

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Resumen

Support