ChatPaper.aiChatPaper

FlowVid: Domando flujos ópticos imperfectos para una síntesis consistente de video a video

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

December 29, 2023
Autores: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI

Resumen

Los modelos de difusión han revolucionado la síntesis de imagen a imagen (I2I) y ahora están permeando en el ámbito de los videos. Sin embargo, el avance en la síntesis de video a video (V2V) se ha visto obstaculizado por el desafío de mantener la consistencia temporal entre los fotogramas del video. Este artículo propone un marco de síntesis V2V consistente al aprovechar conjuntamente las condiciones espaciales y las pistas de flujo óptico temporal dentro del video fuente. A diferencia de métodos anteriores que se adhieren estrictamente al flujo óptico, nuestro enfoque aprovecha sus beneficios mientras maneja las imperfecciones en la estimación del flujo. Codificamos el flujo óptico mediante deformación a partir del primer fotograma y lo utilizamos como una referencia complementaria en el modelo de difusión. Esto permite que nuestro modelo realice síntesis de video editando el primer fotograma con cualquier modelo I2I prevalente y luego propagando las ediciones a los fotogramas sucesivos. Nuestro modelo V2V, FlowVid, demuestra propiedades notables: (1) Flexibilidad: FlowVid funciona sin problemas con los modelos I2I existentes, facilitando diversas modificaciones, incluyendo estilización, intercambio de objetos y ediciones locales. (2) Eficiencia: La generación de un video de 4 segundos con 30 FPS y resolución de 512x512 toma solo 1.5 minutos, lo que es 3.1x, 7.2x y 10.5x más rápido que CoDeF, Rerender y TokenFlow, respectivamente. (3) Alta calidad: En estudios de usuarios, nuestro FlowVid es preferido el 45.7% de las veces, superando a CoDeF (3.5%), Rerender (10.2%) y TokenFlow (40.4%).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).
PDF201December 15, 2024