ChatPaper.aiChatPaper

Modélisation implicite généralisable du mouvement pour l'interpolation d'images vidéo

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Auteurs: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Résumé

La modélisation du mouvement est cruciale dans l'interpolation d'images vidéo (VFI) basée sur le flux. Les paradigmes existants considèrent soit des combinaisons linéaires de flux bidirectionnels, soit prédisent directement des flux bilatéraux pour des timestamps donnés sans explorer des a priori de mouvement favorables, manquant ainsi la capacité de modéliser efficacement les dynamiques spatio-temporelles dans les vidéos du monde réel. Pour pallier cette limitation, dans cette étude, nous introduisons la Modélisation Implicite Généralisable du Mouvement (GIMM), une approche novatrice et efficace pour la modélisation du mouvement dans le VFI. Plus précisément, pour permettre à GIMM d'être un paradigme efficace de modélisation du mouvement, nous concevons un pipeline d'encodage du mouvement pour modéliser un latent de mouvement spatio-temporel à partir de flux bidirectionnels extraits d'estimateurs de flux pré-entraînés, représentant ainsi efficacement des a priori de mouvement spécifiques à l'entrée. Ensuite, nous prédisons implicitement des flux optiques à des timestamps arbitraires entre deux images d'entrée adjacentes via un réseau de neurones basé sur des coordonnées adaptatives, avec des coordonnées spatio-temporelles et le latent de mouvement comme entrées. Notre GIMM peut être intégré de manière fluide avec les travaux existants de VFI basés sur le flux sans modifications supplémentaires. Nous montrons que GIMM surpasse l'état de l'art actuel sur les benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.

Summary

AI-Generated Summary

PDF122November 28, 2024