FlowVid: Gestione dei flussi ottici imperfetti per una sintesi video-to-video coerente

Abstract

I modelli di diffusione hanno rivoluzionato la sintesi da immagine a immagine (I2I) e si stanno ora diffondendo nei video. Tuttavia, il progresso della sintesi da video a video (V2V) è stato ostacolato dalla sfida di mantenere la coerenza temporale tra i fotogrammi del video. Questo articolo propone un framework coerente per la sintesi V2V sfruttando congiuntamente le condizioni spaziali e gli indizi del flusso ottico temporale all'interno del video sorgente. Contrariamente ai metodi precedenti che aderiscono rigidamente al flusso ottico, il nostro approccio ne sfrutta i vantaggi gestendo al contempo le imperfezioni nella stima del flusso. Codifichiamo il flusso ottico tramite deformazione a partire dal primo fotogramma e lo utilizziamo come riferimento supplementare nel modello di diffusione. Ciò consente al nostro modello di sintetizzare video modificando il primo fotogramma con qualsiasi modello I2I prevalente e poi propagando le modifiche ai fotogrammi successivi. Il nostro modello V2V, FlowVid, dimostra proprietà notevoli: (1) Flessibilità: FlowVid funziona perfettamente con i modelli I2I esistenti, facilitando varie modifiche, tra cui stilizzazione, scambio di oggetti e modifiche locali. (2) Efficienza: La generazione di un video di 4 secondi con 30 FPS e risoluzione 512x512 richiede solo 1,5 minuti, il che è 3,1x, 7,2x e 10,5x più veloce rispetto a CoDeF, Rerender e TokenFlow, rispettivamente. (3) Alta qualità: Negli studi sugli utenti, il nostro FlowVid è preferito il 45,7% delle volte, superando CoDeF (3,5%), Rerender (10,2%) e TokenFlow (40,4%).

English

Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).

FlowVid: Gestione dei flussi ottici imperfetti per una sintesi video-to-video coerente

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

Abstract

Support