ChatPaper.aiChatPaper

Modellizzazione Implicita Generalizzabile del Movimento per l'Interpolazione di Fotogrammi Video

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Autori: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Abstract

La modellazione del movimento è fondamentale nell'interpolazione di frame video basata sul flusso (VFI). Gli approcci esistenti considerano combinazioni lineari di flussi bidirezionali o prevedono direttamente flussi bilaterali per timestamp specifici senza esplorare precedenti favorevoli sul movimento, mancando quindi della capacità di modellare efficacemente le dinamiche spazio-temporali nei video del mondo reale. Per affrontare questa limitazione, in questo studio introduciamo la Modellazione Implicita Generalizzabile del Movimento (GIMM), un approccio innovativo ed efficace alla modellazione del movimento per la VFI. Nello specifico, per rendere la GIMM un paradigma efficace di modellazione del movimento, progettiamo una pipeline di codifica del movimento per modellare il latente spazio-temporale del movimento a partire da flussi bidirezionali estratti da stimatori di flusso pre-addestrati, rappresentando efficacemente i precedenti specifici del movimento dell'input. Successivamente, prevediamo implicitamente flussi ottici a intervalli temporali arbitrari tra due frame di input adiacenti tramite una rete neurale basata su coordinate adattive, utilizzando come input le coordinate spazio-temporali e il latente del movimento. La nostra GIMM può essere integrata senza ulteriori modifiche con i lavori esistenti di VFI basati sul flusso. Dimostriamo che la GIMM supera lo stato dell'arte negli benchmark di VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.
PDF122November 28, 2024