ビデオフレーム補間のための汎用的暗黙的モーションモデリング
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
著者: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
要旨
動きのモデリングは、フローベースのビデオフレーム補間(VFI)において極めて重要です。既存のパラダイムでは、双方向フローの線形結合を考慮するか、あるいは特定のタイムスタンプに対する双方向フローを直接予測するものの、有利な動きの事前情報を探索しないため、実世界のビデオにおける時空間ダイナミクスを効果的にモデル化する能力に欠けています。この制限を解決するため、本研究では、VFIのための新しい効果的な動きモデリング手法であるGeneralizable Implicit Motion Modeling(GIMM)を提案します。具体的には、GIMMを効果的な動きモデリングパラダイムとして実現するため、事前学習済みのフロー推定器から抽出された双方向フローから時空間の動き潜在変数をモデル化する動きエンコーディングパイプラインを設計し、入力固有の動きの事前情報を効果的に表現します。次に、適応型の座標ベースニューラルネットワークを用いて、隣接する2つの入力フレーム間の任意のタイムステップにおけるオプティカルフローを暗黙的に予測します。この際、時空間座標と動き潜在変数を入力とします。我々のGIMMは、既存のフローベースVFI手法に追加の修正を加えることなくスムーズに統合可能です。VFIベンチマークにおいて、GIMMが現在の最先端技術よりも優れた性能を発揮することを示します。
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.Summary
AI-Generated Summary