ChatPaper.aiChatPaper

TLB-VFI : Diffusion temporelle latente de pont brownien pour l'interpolation d'images vidéo

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

July 7, 2025
papers.authors: Zonglin Lyu, Chen Chen
cs.AI

papers.abstract

L'interpolation d'images vidéo (Video Frame Interpolation, VFI) vise à prédire l'image intermédiaire I_n (nous utilisons n pour désigner le temps dans les vidéos afin d'éviter une surcharge de notation avec l'instant t dans les modèles de diffusion) à partir de deux images consécutives voisines I_0 et I_1. Les approches récentes appliquent des modèles de diffusion (à la fois basés sur des images et sur des vidéos) à cette tâche et obtiennent des performances solides. Cependant, les modèles de diffusion basés sur des images sont incapables d'extraire des informations temporelles et sont relativement inefficaces par rapport aux méthodes non basées sur la diffusion. Les modèles de diffusion basés sur des vidéos peuvent extraire des informations temporelles, mais ils sont trop volumineux en termes d'échelle d'entraînement, de taille de modèle et de temps d'inférence. Pour atténuer ces problèmes, nous proposons le modèle de diffusion Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), un modèle de diffusion basé sur des vidéos efficace. En extrayant des informations temporelles riches des entrées vidéo grâce à notre gating 3D par ondelettes et à un autoencodeur temporellement conscient, notre méthode obtient une amélioration de 20 % du FID sur les ensembles de données les plus difficiles par rapport aux modèles de diffusion basés sur des images récents. Par ailleurs, grâce à la présence d'informations temporelles riches, notre méthode atteint des performances solides tout en ayant trois fois moins de paramètres. Cette réduction de paramètres entraîne une accélération de 2,3 fois. En intégrant un guidage par flux optique, notre méthode nécessite 9000 fois moins de données d'entraînement et atteint plus de 20 fois moins de paramètres que les modèles de diffusion basés sur des vidéos. Les codes et les résultats sont disponibles sur notre page de projet : https://zonglinl.github.io/tlbvfi_page.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n (we use n to denote time in videos to avoid notation overload with the timestep t in diffusion models) based on two consecutive neighboring frames I_0 and I_1. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.
PDF41July 18, 2025