ChatPaper.aiChatPaper

Modelagem Implícita Generalizável para Interpolação de Quadros de Vídeo

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Autores: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Resumo

A modelagem de movimento é crucial na Interpolação de Quadros de Vídeo baseada em Fluxo (VFI). Os paradigmas existentes consideram combinações lineares de fluxos bidirecionais ou preveem diretamente fluxos bilaterais para marcas de tempo específicas sem explorar prioridades de movimento favoráveis, faltando assim a capacidade de modelar efetivamente a dinâmica espaço-temporal em vídeos do mundo real. Para lidar com essa limitação, neste estudo, introduzimos a Modelagem de Movimento Implícita Generalizável (GIMM), uma abordagem inovadora e eficaz para a modelagem de movimento para VFI. Especificamente, para habilitar o GIMM como um paradigma eficaz de modelagem de movimento, projetamos um pipeline de codificação de movimento para modelar o movimento espaço-temporal latente a partir de fluxos bidirecionais extraídos de estimadores de fluxo pré-treinados, representando efetivamente prioridades de movimento específicas de entrada. Em seguida, prevemos implicitamente fluxos ópticos de passo de tempo arbitrário entre dois quadros de entrada adjacentes por meio de uma rede neural adaptativa baseada em coordenadas, com coordenadas espaço-temporais e movimento latente como entradas. Nosso GIMM pode ser integrado suavemente com trabalhos existentes de VFI baseados em fluxo sem necessidade de modificações adicionais. Mostramos que o GIMM tem um desempenho melhor do que o estado da arte atual nos benchmarks de VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.
PDF122November 28, 2024