Algemeen toepasbare impliciete bewegingsmodellering voor video frame-interpolatie
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
Auteurs: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
Samenvatting
Motion modeling is van cruciaal belang in flow-based Video Frame Interpolation (VFI).
Bestaande paradigma's beschouwen ofwel lineaire combinaties van bidirectionele flows
of voorspellen direct bilaterale flows voor gegeven tijdstippen zonder gunstige
bewegingsprioriteiten te verkennen, waardoor ze niet in staat zijn om spatiotemporele
dynamiek in real-world video's effectief te modelleren. Om deze beperking aan te pakken,
introduceren we in deze studie Generalizable Implicit Motion Modeling (GIMM), een
nieuwe en effectieve benadering van motion modeling voor VFI. Specifiek, om GIMM als
een effectief motion modeling paradigma mogelijk te maken, ontwerpen we een
motion encoding pipeline om spatiotemporele motion latent te modelleren uit
bidirectionele flows die zijn geëxtraheerd uit vooraf getrainde flow estimators,
waardoor input-specifieke motion prioriteiten effectief worden gerepresenteerd. Vervolgens
voorspellen we impliciet optische flows voor willekeurige tijdstappen binnen twee
aangrenzende invoerframes via een adaptief coordinate-based neuraal netwerk, met
spatiotemporele coördinaten en motion latent als invoer. Onze GIMM kan naadloos worden
geïntegreerd met bestaande flow-based VFI-werken zonder verdere aanpassingen. We laten
zien dat GIMM beter presteert dan de huidige state-of-the-art op de VFI benchmarks.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.