ChatPaper.aiChatPaper

Verallgemeinerbare implizite Bewegungsmodellierung für die Zwischenbildberechnung in Videos.

Generalizable Implicit Motion Modeling for Video Frame Interpolation

July 11, 2024
Autoren: Zujin Guo, Wei Li, Chen Change Loy
cs.AI

Zusammenfassung

Die Bewegungsmodellierung ist entscheidend für die auf Fluss basierende Video Frame Interpolation (VFI). Bestehende Paradigmen berücksichtigen entweder lineare Kombinationen von bidirektionalen Flüssen oder sagen direkt bilaterale Flüsse für gegebene Zeitstempel vorher, ohne günstige Bewegungsprioritäten zu erforschen, wodurch die Fähigkeit zur effektiven Modellierung von raumzeitlicher Dynamik in Videos aus der realen Welt fehlt. Um diese Einschränkung anzugehen, führen wir in dieser Studie Generalisierbare Implizite Bewegungsmodellierung (GIMM) ein, einen neuartigen und effektiven Ansatz zur Bewegungsmodellierung für VFI. Speziell entwerfen wir, um GIMM als effektives Bewegungsmodellierungsparadigma zu ermöglichen, eine Bewegungskodierungspipeline, um raumzeitliche Bewegungen latent aus bidirektionalen Flüssen zu modellieren, die von vorab trainierten Flussschätzern extrahiert wurden und somit Eingangsspezifische Bewegungsprioritäten effektiv darstellen. Dann sagen wir implizit beliebige Zeitstempel-optische Flüsse innerhalb von zwei benachbarten Eingabeframes über ein adaptives, koordinatenbasiertes neuronales Netzwerk vorher, wobei raumzeitliche Koordinaten und Bewegungslatenz als Eingaben dienen. Unser GIMM kann nahtlos in bestehende auf Fluss basierende VFI-Arbeiten integriert werden, ohne weitere Modifikationen. Wir zeigen, dass GIMM auf den VFI-Benchmarks besser abschneidet als der aktuelle Stand der Technik.
English
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.

Summary

AI-Generated Summary

PDF122November 28, 2024