Обобщенное неявное моделирование движения для интерполяции кадров видео.
Generalizable Implicit Motion Modeling for Video Frame Interpolation
July 11, 2024
Авторы: Zujin Guo, Wei Li, Chen Change Loy
cs.AI
Аннотация
Моделирование движения имеет ключевое значение в интерполяции видеокадров на основе потока (Video Frame Interpolation, VFI). Существующие парадигмы либо рассматривают линейные комбинации двунаправленных потоков, либо непосредственно предсказывают двусторонние потоки для заданных меток времени, не исследуя благоприятные движения заранее, что приводит к недостаточной способности эффективно моделировать пространственно-временные динамики в видеороликах реального мира. Для преодоления этого ограничения в данном исследовании мы представляем Обобщенное Неявное Моделирование Движения (Generalizable Implicit Motion Modeling, GIMM), новый и эффективный подход к моделированию движения для VFI. Конкретно, чтобы сделать GIMM эффективной парадигмой моделирования движения, мы разрабатываем конвейер кодирования движения для моделирования пространственно-временного движения, скрытого в двунаправленных потоках, извлеченных из предварительно обученных оценщиков потока, эффективно представляя движения, специфичные для ввода. Затем мы неявно предсказываем оптические потоки произвольного временного шага между двумя смежными входными кадрами с помощью адаптивной нейронной сети на основе координат, с пространственно-временными координатами и скрытым движением в качестве входных данных. Наш GIMM может быть легко интегрирован с существующими работами по VFI на основе потока без дополнительных модификаций. Мы показываем, что GIMM работает лучше, чем текущее состояние искусства на бенчмарках VFI.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI).
Existing paradigms either consider linear combinations of bidirectional flows
or directly predict bilateral flows for given timestamps without exploring
favorable motion priors, thus lacking the capability of effectively modeling
spatiotemporal dynamics in real-world videos. To address this limitation, in
this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel
and effective approach to motion modeling for VFI. Specifically, to enable GIMM
as an effective motion modeling paradigm, we design a motion encoding pipeline
to model spatiotemporal motion latent from bidirectional flows extracted from
pre-trained flow estimators, effectively representing input-specific motion
priors. Then, we implicitly predict arbitrary-timestep optical flows within two
adjacent input frames via an adaptive coordinate-based neural network, with
spatiotemporal coordinates and motion latent as inputs. Our GIMM can be
smoothly integrated with existing flow-based VFI works without further
modifications. We show that GIMM performs better than the current state of the
art on the VFI benchmarks.Summary
AI-Generated Summary