ChatPaper.aiChatPaper

FlowVid: Управление несовершенными оптическими потоками для согласованного синтеза видео-в-видео

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

December 29, 2023
Авторы: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI

Аннотация

Диффузионные модели произвели революцию в синтезе изображений (image-to-image, I2I) и теперь активно проникают в область видео. Однако прогресс в синтезе видео (video-to-video, V2V) сдерживается сложностью поддержания временной согласованности между кадрами. В данной статье предлагается согласованный фреймворк для V2V-синтеза, который совместно использует пространственные условия и временные подсказки оптического потока из исходного видео. В отличие от предыдущих методов, строго следующих оптическому потоку, наш подход извлекает его преимущества, одновременно справляясь с несовершенством оценки потока. Мы кодируем оптический поток через деформацию на основе первого кадра и используем его как дополнительную ссылку в диффузионной модели. Это позволяет нашему модели синтезировать видео, редактируя первый кадр с помощью любой популярной I2I-модели, а затем распространяя изменения на последующие кадры. Наша V2V-модель, FlowVid, демонстрирует впечатляющие свойства: (1) Гибкость: FlowVid работает с существующими I2I-моделями, поддерживая различные модификации, включая стилизацию, замену объектов и локальные правки. (2) Эффективность: Генерация 4-секундного видео с частотой 30 кадров в секунду и разрешением 512x512 занимает всего 1,5 минуты, что в 3,1, 7,2 и 10,5 раз быстрее, чем CoDeF, Rerender и TokenFlow соответственно. (3) Высокое качество: В пользовательских исследованиях FlowVid предпочли в 45,7% случаев, что превосходит результаты CoDeF (3,5%), Rerender (10,2%) и TokenFlow (40,4%).
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).
PDF201December 15, 2024