FlowVid: Beherrschung unvollkommener optischer Flüsse für konsistente Video-zu-Video-Synthese
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
December 29, 2023
Autoren: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI
Zusammenfassung
Diffusion-Modelle haben die Bild-zu-Bild (I2I)-Synthese revolutioniert und dringen nun in den Bereich der Videos vor. Allerdings wurde der Fortschritt in der Video-zu-Video (V2V)-Synthese durch die Herausforderung, die zeitliche Konsistenz über die Videobilder hinweg aufrechtzuerhalten, behindert. Dieses Papier schlägt ein konsistentes V2V-Synthese-Framework vor, das räumliche Bedingungen und zeitliche optische Flussinformationen innerhalb des Quellvideos gemeinsam nutzt. Im Gegensatz zu früheren Methoden, die strikt dem optischen Fluss folgen, nutzt unser Ansatz dessen Vorteile, während er gleichzeitig die Unvollkommenheiten in der Flussabschätzung handhabt. Wir kodieren den optischen Fluss durch Warping vom ersten Bild und verwenden ihn als zusätzliche Referenz im Diffusionsmodell. Dies ermöglicht es unserem Modell, Videos zu synthetisieren, indem das erste Bild mit beliebigen gängigen I2I-Modellen bearbeitet und die Änderungen dann auf nachfolgende Bilder übertragen werden. Unser V2V-Modell, FlowVid, zeigt bemerkenswerte Eigenschaften: (1) Flexibilität: FlowVid arbeitet nahtlos mit bestehenden I2I-Modellen zusammen und erleichtert verschiedene Modifikationen, einschließlich Stilisierung, Objektaustausch und lokaler Bearbeitungen. (2) Effizienz: Die Erzeugung eines 4-Sekunden-Videos mit 30 FPS und einer Auflösung von 512x512 dauert nur 1,5 Minuten, was 3,1x, 7,2x und 10,5x schneller ist als CoDeF, Rerender und TokenFlow. (3) Hohe Qualität: In Benutzerstudien wird unser FlowVid in 45,7 % der Fälle bevorzugt und übertrifft damit CoDeF (3,5 %), Rerender (10,2 %) und TokenFlow (40,4 %).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are
now permeating into videos. However, the advancement of video-to-video (V2V)
synthesis has been hampered by the challenge of maintaining temporal
consistency across video frames. This paper proposes a consistent V2V synthesis
framework by jointly leveraging spatial conditions and temporal optical flow
clues within the source video. Contrary to prior methods that strictly adhere
to optical flow, our approach harnesses its benefits while handling the
imperfection in flow estimation. We encode the optical flow via warping from
the first frame and serve it as a supplementary reference in the diffusion
model. This enables our model for video synthesis by editing the first frame
with any prevalent I2I models and then propagating edits to successive frames.
Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility:
FlowVid works seamlessly with existing I2I models, facilitating various
modifications, including stylization, object swaps, and local edits. (2)
Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution
takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF,
Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our
FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender
(10.2%), and TokenFlow (40.4%).