TLB-VFI: Временная латентная диффузия Броуновского моста для интерполяции видеокадров

Аннотация

Интерполяция видеокадров (Video Frame Interpolation, VFI) направлена на предсказание промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки обозначений с временным шагом t в диффузионных моделях) на основе двух последовательных соседних кадров I_0 и I_1. Современные подходы применяют диффузионные модели (как основанные на изображениях, так и на видео) для решения этой задачи и демонстрируют высокую производительность. Однако диффузионные модели, основанные на изображениях, не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели, основанные на видео, могут извлекать временную информацию, но они слишком громоздки с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы смягчить эти проблемы, мы предлагаем Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI) — эффективную диффузионную модель, основанную на видео. Благодаря извлечению богатой временной информации из видеовходов с помощью предложенных нами 3D-вейвлетного гейтинга и временно-ориентированного автокодера, наш метод достигает улучшения на 20% по метрике FID на наиболее сложных наборах данных по сравнению с современными SOTA-моделями, основанными на изображениях. При этом, благодаря наличию богатой временной информации, наш метод демонстрирует высокую производительность, имея в 3 раза меньше параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря включению оптического потока в качестве ориентира, наш метод требует в 9000 раз меньше данных для обучения и имеет более чем в 20 раз меньше параметров по сравнению с диффузионными моделями, основанными на видео. Код и результаты доступны на странице проекта: https://zonglinl.github.io/tlbvfi_page.

English

Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n (we use n to denote time in videos to avoid notation overload with the timestep t in diffusion models) based on two consecutive neighboring frames I_0 and I_1. Recent approaches apply diffusion models (both image-based and video-based) in this task and achieve strong performance. However, image-based diffusion models are unable to extract temporal information and are relatively inefficient compared to non-diffusion methods. Video-based diffusion models can extract temporal information, but they are too large in terms of training scale, model size, and inference time. To mitigate the above issues, we propose Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), an efficient video-based diffusion model. By extracting rich temporal information from video inputs through our proposed 3D-wavelet gating and temporal-aware autoencoder, our method achieves 20% improvement in FID on the most challenging datasets over recent SOTA of image-based diffusion models. Meanwhile, due to the existence of rich temporal information, our method achieves strong performance while having 3times fewer parameters. Such a parameter reduction results in 2.3x speed up. By incorporating optical flow guidance, our method requires 9000x less training data and achieves over 20x fewer parameters than video-based diffusion models. Codes and results are available at our project page: https://zonglinl.github.io/tlbvfi_page.