FlowVid: Het temmen van imperfecte optische stromen voor consistente video-naar-video synthese
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
December 29, 2023
Auteurs: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI
Samenvatting
Diffusiemodellen hebben een revolutie teweeggebracht in beeld-naar-beeld (I2I) synthese en dringen nu door in video's. De vooruitgang van video-naar-video (V2V) synthese is echter belemmerd door de uitdaging om temporele consistentie tussen videoframes te behouden. Dit artikel stelt een consistent V2V-syntheseraamwerk voor door gezamenlijk gebruik te maken van ruimtelijke condities en temporele optische stroomaanwijzingen binnen de bronvideo. In tegenstelling tot eerdere methoden die strikt vasthouden aan optische stroom, benut onze aanpak de voordelen ervan terwijl de imperfectie in stroomschatting wordt afgehandeld. We coderen de optische stroom via warping vanaf het eerste frame en gebruiken deze als aanvullende referentie in het diffusiemodel. Hierdoor kan ons model video's synthetiseren door het eerste frame te bewerken met gangbare I2I-modellen en vervolgens de bewerkingen naar opeenvolgende frames te verspreiden. Ons V2V-model, FlowVid, toont opmerkelijke eigenschappen: (1) Flexibiliteit: FlowVid werkt naadloos samen met bestaande I2I-modellen, waardoor verschillende aanpassingen mogelijk zijn, waaronder stilisering, objectverwisselingen en lokale bewerkingen. (2) Efficiëntie: Het genereren van een 4 seconden durende video met 30 FPS en een resolutie van 512x512 duurt slechts 1,5 minuut, wat respectievelijk 3,1x, 7,2x en 10,5x sneller is dan CoDeF, Rerender en TokenFlow. (3) Hoge kwaliteit: In gebruikersstudies wordt onze FlowVid 45,7% van de tijd verkozen boven CoDeF (3,5%), Rerender (10,2%) en TokenFlow (40,4%).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are
now permeating into videos. However, the advancement of video-to-video (V2V)
synthesis has been hampered by the challenge of maintaining temporal
consistency across video frames. This paper proposes a consistent V2V synthesis
framework by jointly leveraging spatial conditions and temporal optical flow
clues within the source video. Contrary to prior methods that strictly adhere
to optical flow, our approach harnesses its benefits while handling the
imperfection in flow estimation. We encode the optical flow via warping from
the first frame and serve it as a supplementary reference in the diffusion
model. This enables our model for video synthesis by editing the first frame
with any prevalent I2I models and then propagating edits to successive frames.
Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility:
FlowVid works seamlessly with existing I2I models, facilitating various
modifications, including stylization, object swaps, and local edits. (2)
Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution
takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF,
Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our
FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender
(10.2%), and TokenFlow (40.4%).