ChatPaper.aiChatPaper

Algemeen toepasbare impliciete bewegingsmodellering voor video frame-interpolatie

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Auteurs: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Samenvatting

Motion modeling is van cruciaal belang in flow-based Video Frame Interpolation (VFI). Bestaande paradigma's beschouwen ofwel lineaire combinaties van bidirectionele flows of voorspellen direct bilaterale flows voor gegeven tijdstippen zonder gunstige bewegingsprioriteiten te verkennen, waardoor ze niet in staat zijn om spatiotemporele dynamiek in real-world video's effectief te modelleren. Om deze beperking aan te pakken, introduceren we in deze studie Generalizable Implicit Motion Modeling (GIMM), een nieuwe en effectieve benadering van motion modeling voor VFI. Specifiek, om GIMM als een effectief motion modeling paradigma mogelijk te maken, ontwerpen we een motion encoding pipeline om spatiotemporele motion latent te modelleren uit bidirectionele flows die zijn geëxtraheerd uit vooraf getrainde flow estimators, waardoor input-specifieke motion prioriteiten effectief worden gerepresenteerd. Vervolgens voorspellen we impliciet optische flows voor willekeurige tijdstappen binnen twee aangrenzende invoerframes via een adaptief coordinate-based neuraal netwerk, met spatiotemporele coördinaten en motion latent als invoer. Onze GIMM kan naadloos worden geïntegreerd met bestaande flow-based VFI-werken zonder verdere aanpassingen. We laten zien dat GIMM beter presteert dan de huidige state-of-the-art op de VFI benchmarks.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.
PDF112February 7, 2026