Modelagem Implícita Generalizável para Interpolação de Quadros de Vídeo
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
Autores: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
Resumo
A modelagem de movimento é crucial na Interpolação de Quadros de Vídeo baseada em Fluxo (VFI).
Os paradigmas existentes consideram combinações lineares de fluxos bidirecionais
ou preveem diretamente fluxos bilaterais para marcas de tempo específicas sem explorar
prioridades de movimento favoráveis, faltando assim a capacidade de modelar
efetivamente a dinâmica espaço-temporal em vídeos do mundo real. Para lidar com essa limitação, neste
estudo, introduzimos a Modelagem de Movimento Implícita Generalizável (GIMM), uma abordagem
inovadora e eficaz para a modelagem de movimento para VFI. Especificamente, para habilitar o GIMM
como um paradigma eficaz de modelagem de movimento, projetamos um pipeline de codificação de movimento
para modelar o movimento espaço-temporal latente a partir de fluxos bidirecionais extraídos de
estimadores de fluxo pré-treinados, representando efetivamente prioridades de movimento específicas de entrada. Em seguida, prevemos implicitamente fluxos ópticos de passo de tempo arbitrário entre dois
quadros de entrada adjacentes por meio de uma rede neural adaptativa baseada em coordenadas, com
coordenadas espaço-temporais e movimento latente como entradas. Nosso GIMM pode ser
integrado suavemente com trabalhos existentes de VFI baseados em fluxo sem necessidade de
modificações adicionais. Mostramos que o GIMM tem um desempenho melhor do que o estado da arte
atual nos benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.