Modelado Implícito Generalizable para la Interpolación de Fotogramas de Video
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
Autores: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
Resumen
La modelización del movimiento es crítica en la Interpolación de Cuadros de Video basada en flujo (VFI).
Los paradigmas existentes consideran combinaciones lineales de flujos bidireccionales
o predicen directamente flujos bilaterales para marcas de tiempo específicas sin explorar
priors de movimiento favorables, careciendo así de la capacidad de modelar efectivamente
la dinámica espacio-temporal en videos del mundo real. Para abordar esta limitación, en
este estudio, presentamos Modelización de Movimiento Implícito Generalizable (GIMM), un enfoque
novedoso y efectivo para la modelización del movimiento en VFI. Específicamente, para habilitar GIMM
como un paradigma efectivo de modelización del movimiento, diseñamos un proceso de codificación de movimiento
para modelar el movimiento espacio-temporal latente a partir de flujos bidireccionales extraídos de
estimadores de flujo pre-entrenados, representando efectivamente priors de movimiento específicos de la entrada. Luego, predecimos implícitamente flujos ópticos de paso de tiempo arbitrario entre dos
cuadros de entrada adyacentes a través de una red neuronal adaptativa basada en coordenadas,
con coordenadas espacio-temporales y movimiento latente como entradas. Nuestro GIMM puede ser
integrado fácilmente con trabajos existentes de VFI basados en flujo sin necesidad de
modificaciones adicionales. Mostramos que GIMM tiene un mejor rendimiento que el estado actual de la
técnica en los benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.Summary
AI-Generated Summary