FlowVid : Maîtriser les flux optiques imparfaits pour une synthèse vidéo-à-vidéo cohérente
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
December 29, 2023
Auteurs: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI
Résumé
Les modèles de diffusion ont révolutionné la synthèse d'image-à-image (I2I) et s'étendent désormais aux vidéos. Cependant, l'avancée de la synthèse vidéo-à-vidéo (V2V) a été freinée par le défi de maintenir une cohérence temporelle entre les images vidéo. Cet article propose un cadre de synthèse V2V cohérent en exploitant conjointement les conditions spatiales et les indices de flux optique temporel dans la vidéo source. Contrairement aux méthodes antérieures qui adhèrent strictement au flux optique, notre approche tire parti de ses avantages tout en gérant les imperfections de l'estimation du flux. Nous encodons le flux optique via un warping à partir de la première image et l'utilisons comme référence supplémentaire dans le modèle de diffusion. Cela permet à notre modèle de synthétiser des vidéos en modifiant la première image avec n'importe quel modèle I2I prévalent, puis en propageant les modifications aux images successives. Notre modèle V2V, FlowVid, démontre des propriétés remarquables : (1) Flexibilité : FlowVid fonctionne parfaitement avec les modèles I2I existants, facilitant diverses modifications, y compris la stylisation, les échanges d'objets et les modifications locales. (2) Efficacité : La génération d'une vidéo de 4 secondes à 30 FPS et une résolution de 512x512 ne prend que 1,5 minute, ce qui est respectivement 3,1x, 7,2x et 10,5x plus rapide que CoDeF, Rerender et TokenFlow. (3) Haute qualité : Dans les études utilisateurs, notre FlowVid est préféré 45,7 % du temps, surpassant CoDeF (3,5 %), Rerender (10,2 %) et TokenFlow (40,4 %).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are
now permeating into videos. However, the advancement of video-to-video (V2V)
synthesis has been hampered by the challenge of maintaining temporal
consistency across video frames. This paper proposes a consistent V2V synthesis
framework by jointly leveraging spatial conditions and temporal optical flow
clues within the source video. Contrary to prior methods that strictly adhere
to optical flow, our approach harnesses its benefits while handling the
imperfection in flow estimation. We encode the optical flow via warping from
the first frame and serve it as a supplementary reference in the diffusion
model. This enables our model for video synthesis by editing the first frame
with any prevalent I2I models and then propagating edits to successive frames.
Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility:
FlowVid works seamlessly with existing I2I models, facilitating various
modifications, including stylization, object swaps, and local edits. (2)
Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution
takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF,
Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our
FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender
(10.2%), and TokenFlow (40.4%).