TLB-VFI: 비디오 프레임 보간을 위한 시간 인식 잠재 브라운 브리지 확산 모델
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
저자: Zonglin Lyu, Chen Chen
cs.AI
초록
비디오 프레임 보간(Video Frame Interpolation, VFI)은 두 개의 연속적인 인접 프레임 I_0과 I_1을 기반으로 중간 프레임 I_n을 예측하는 것을 목표로 합니다(여기서 n은 비디오에서의 시간을 나타내며, 확산 모델의 시간 단계 t와의 표기법 중복을 피하기 위해 사용됩니다). 최근 접근법들은 이 작업에 확산 모델(이미지 기반 및 비디오 기반)을 적용하여 강력한 성능을 달성했습니다. 그러나 이미지 기반 확산 모델은 시간적 정보를 추출할 수 없으며, 비확산 방법에 비해 상대적으로 비효율적입니다. 비디오 기반 확산 모델은 시간적 정보를 추출할 수 있지만, 학습 규모, 모델 크기, 추론 시간 측면에서 너무 큽니다. 이러한 문제를 완화하기 위해, 우리는 시간 인식 잠재 브라운 브리지 확산을 활용한 비디오 프레임 보간(Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation, TLB-VFI)이라는 효율적인 비디오 기반 확산 모델을 제안합니다. 제안된 3D-웨이블릿 게이팅과 시간 인식 오토인코더를 통해 비디오 입력에서 풍부한 시간적 정보를 추출함으로써, 우리의 방법은 가장 어려운 데이터셋에서 최신 이미지 기반 확산 모델의 SOTA 대비 FID에서 20%의 개선을 달성했습니다. 동시에, 풍부한 시간적 정보의 존재로 인해 우리의 방법은 매개변수 수를 3배 줄이면서도 강력한 성능을 보입니다. 이러한 매개변수 감소는 2.3배의 속도 향상을 가져옵니다. 광학 흐름 지도를 통합함으로써, 우리의 방법은 비디오 기반 확산 모델 대비 9000배 적은 학습 데이터와 20배 이상 적은 매개변수를 필요로 합니다. 코드와 결과는 프로젝트 페이지(https://zonglinl.github.io/tlbvfi_page)에서 확인할 수 있습니다.
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.