Modélisation implicite généralisable du mouvement pour l'interpolation d'images vidéo
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
Auteurs: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
Résumé
La modélisation du mouvement est cruciale dans l'interpolation d'images vidéo (VFI) basée sur le flux. Les paradigmes existants considèrent soit des combinaisons linéaires de flux bidirectionnels, soit prédisent directement des flux bilatéraux pour des timestamps donnés sans explorer des a priori de mouvement favorables, manquant ainsi la capacité de modéliser efficacement les dynamiques spatio-temporelles dans les vidéos du monde réel. Pour pallier cette limitation, dans cette étude, nous introduisons la Modélisation Implicite Généralisable du Mouvement (GIMM), une approche novatrice et efficace pour la modélisation du mouvement dans le VFI. Plus précisément, pour permettre à GIMM d'être un paradigme efficace de modélisation du mouvement, nous concevons un pipeline d'encodage du mouvement pour modéliser un latent de mouvement spatio-temporel à partir de flux bidirectionnels extraits d'estimateurs de flux pré-entraînés, représentant ainsi efficacement des a priori de mouvement spécifiques à l'entrée. Ensuite, nous prédisons implicitement des flux optiques à des timestamps arbitraires entre deux images d'entrée adjacentes via un réseau de neurones basé sur des coordonnées adaptatives, avec des coordonnées spatio-temporelles et le latent de mouvement comme entrées. Notre GIMM peut être intégré de manière fluide avec les travaux existants de VFI basés sur le flux sans modifications supplémentaires. Nous montrons que GIMM surpasse l'état de l'art actuel sur les benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.Summary
AI-Generated Summary