TLB-VFI:時間認識型潜在ブラウニアンブリッジ拡散モデルによるビデオフレーム補間
TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
July 7, 2025
著者: Zonglin Lyu, Chen Chen
cs.AI
要旨
ビデオフレーム補間(VFI)は、2つの連続する隣接フレームI_0とI_1に基づいて中間フレームI_nを予測することを目的としています(ここでnはビデオ内の時間を表し、拡散モデルのタイムステップtとの表記の重複を避けるために使用されます)。最近のアプローチでは、このタスクに拡散モデル(画像ベースおよびビデオベースの両方)を適用し、強力な性能を達成しています。しかし、画像ベースの拡散モデルは時間情報を抽出できず、非拡散法と比較して相対的に非効率的です。ビデオベースの拡散モデルは時間情報を抽出できますが、トレーニングスケール、モデルサイズ、推論時間の点で大きすぎます。これらの問題を緩和するために、我々はTemporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation(TLB-VFI)を提案します。これは、効率的なビデオベースの拡散モデルです。提案する3Dウェーブレットゲーティングと時間認識オートエンコーダを通じてビデオ入力から豊富な時間情報を抽出することで、我々の方法は、最も挑戦的なデータセットにおいて、最近の画像ベース拡散モデルのSOTAを20%改善するFIDを達成します。同時に、豊富な時間情報の存在により、我々の方法は、パラメータ数を3分の1に削減しながらも強力な性能を達成します。このパラメータ削減により、2.3倍の高速化が実現されます。オプティカルフローガイダンスを組み込むことで、我々の方法は、ビデオベースの拡散モデルと比較して9000倍少ないトレーニングデータを必要とし、20倍以上の少ないパラメータを達成します。コードと結果はプロジェクトページで利用可能です:https://zonglinl.github.io/tlbvfi_page。
English
Video Frame Interpolation (VFI) aims to predict the intermediate frame I_n
(we use n to denote time in videos to avoid notation overload with the timestep
t in diffusion models) based on two consecutive neighboring frames I_0 and
I_1. Recent approaches apply diffusion models (both image-based and
video-based) in this task and achieve strong performance. However, image-based
diffusion models are unable to extract temporal information and are relatively
inefficient compared to non-diffusion methods. Video-based diffusion models can
extract temporal information, but they are too large in terms of training
scale, model size, and inference time. To mitigate the above issues, we propose
Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation
(TLB-VFI), an efficient video-based diffusion model. By extracting rich
temporal information from video inputs through our proposed 3D-wavelet gating
and temporal-aware autoencoder, our method achieves 20% improvement in FID on
the most challenging datasets over recent SOTA of image-based diffusion models.
Meanwhile, due to the existence of rich temporal information, our method
achieves strong performance while having 3times fewer parameters. Such a
parameter reduction results in 2.3x speed up. By incorporating optical flow
guidance, our method requires 9000x less training data and achieves over 20x
fewer parameters than video-based diffusion models. Codes and results are
available at our project page: https://zonglinl.github.io/tlbvfi_page.