ChatPaper.aiChatPaper

Modelado Implícito Generalizable para la Interpolación de Fotogramas de Video

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Autores: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Resumen

La modelización del movimiento es crítica en la Interpolación de Cuadros de Video basada en flujo (VFI). Los paradigmas existentes consideran combinaciones lineales de flujos bidireccionales o predicen directamente flujos bilaterales para marcas de tiempo específicas sin explorar priors de movimiento favorables, careciendo así de la capacidad de modelar efectivamente la dinámica espacio-temporal en videos del mundo real. Para abordar esta limitación, en este estudio, presentamos Modelización de Movimiento Implícito Generalizable (GIMM), un enfoque novedoso y efectivo para la modelización del movimiento en VFI. Específicamente, para habilitar GIMM como un paradigma efectivo de modelización del movimiento, diseñamos un proceso de codificación de movimiento para modelar el movimiento espacio-temporal latente a partir de flujos bidireccionales extraídos de estimadores de flujo pre-entrenados, representando efectivamente priors de movimiento específicos de la entrada. Luego, predecimos implícitamente flujos ópticos de paso de tiempo arbitrario entre dos cuadros de entrada adyacentes a través de una red neuronal adaptativa basada en coordenadas, con coordenadas espacio-temporales y movimiento latente como entradas. Nuestro GIMM puede ser integrado fácilmente con trabajos existentes de VFI basados en flujo sin necesidad de modificaciones adicionales. Mostramos que GIMM tiene un mejor rendimiento que el estado actual de la técnica en los benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.

Summary

AI-Generated Summary

PDF122November 28, 2024