ChatPaper.aiChatPaper

일반화 가능한 내재적 모션 모델링을 통한 비디오 프레임 보간

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
저자: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

초록

모션 모델링은 플로우 기반 비디오 프레임 보간(Video Frame Interpolation, VFI)에서 매우 중요합니다. 기존 패러다임은 양방향 플로우의 선형 조합을 고려하거나 주어진 타임스탬프에 대한 양측 플로우를 직접 예측하는 방식으로, 유리한 모션 사전 정보를 탐색하지 않아 실제 비디오에서의 시공간 역학을 효과적으로 모델링하는 능력이 부족했습니다. 이러한 한계를 해결하기 위해, 본 연구에서는 VFI를 위한 새로운 모션 모델링 접근법인 일반화 가능한 암묵적 모션 모델링(Generalizable Implicit Motion Modeling, GIMM)을 제안합니다. 구체적으로, GIMM을 효과적인 모션 모델링 패러다임으로 만들기 위해, 사전 학습된 플로우 추정기에서 추출한 양방향 플로우로부터 시공간 모션 잠재 공간을 모델링하는 모션 인코딩 파이프라인을 설계하여 입력 특정 모션 사전 정보를 효과적으로 표현합니다. 그런 다음, 시공간 좌표와 모션 잠재 공간을 입력으로 사용하여 적응형 좌표 기반 신경망을 통해 두 인접 입력 프레임 사이의 임의의 타임스텝 광학 흐름을 암묵적으로 예측합니다. 우리의 GIMM은 추가 수정 없이 기존의 플로우 기반 VFI 작업과 원활하게 통합될 수 있습니다. 실험 결과, GIMM은 VFI 벤치마크에서 현재 최신 기술보다 더 나은 성능을 보여줍니다.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.

Summary

AI-Generated Summary

PDF122November 28, 2024