ChatPaper.aiChatPaper

FlowVid: Domando Fluxos Ópticos Imperfeitos para Síntese Consistente de Vídeo para Vídeo

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

December 29, 2023
Autores: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI

Resumo

Os modelos de difusão transformaram a síntese de imagem para imagem (I2I) e agora estão se expandindo para vídeos. No entanto, o avanço da síntese de vídeo para vídeo (V2V) tem sido dificultado pelo desafio de manter a consistência temporal entre os quadros do vídeo. Este artigo propõe um framework consistente para síntese V2V, utilizando conjuntamente condições espaciais e pistas de fluxo óptico temporal do vídeo de origem. Diferente de métodos anteriores que seguem rigidamente o fluxo óptico, nossa abordagem aproveita seus benefícios enquanto lida com as imperfeições na estimativa do fluxo. Codificamos o fluxo óptico via deformação a partir do primeiro quadro e o utilizamos como uma referência suplementar no modelo de difusão. Isso permite que nosso modelo realize a síntese de vídeo editando o primeiro quadro com qualquer modelo I2I prevalente e, em seguida, propagando as edições para os quadros subsequentes. Nosso modelo V2V, FlowVid, demonstra propriedades notáveis: (1) Flexibilidade: o FlowVid funciona perfeitamente com modelos I2I existentes, facilitando várias modificações, incluindo estilização, troca de objetos e edições locais. (2) Eficiência: a geração de um vídeo de 4 segundos com 30 FPS e resolução de 512x512 leva apenas 1,5 minuto, o que é 3,1x, 7,2x e 10,5x mais rápido que CoDeF, Rerender e TokenFlow, respectivamente. (3) Alta qualidade: em estudos com usuários, nosso FlowVid foi preferido 45,7% das vezes, superando CoDeF (3,5%), Rerender (10,2%) e TokenFlow (40,4%).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).
PDF191February 8, 2026