FlowVid: 不完全なオプティカルフローを制御して一貫性のあるビデオ間合成を実現
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
December 29, 2023
著者: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
cs.AI
要旨
拡散モデルは画像間(I2I)合成に革命をもたらし、現在では動画領域にも浸透しつつあります。しかし、動画間(V2V)合成の進展は、ビデオフレーム間の時間的一貫性を維持するという課題によって妨げられてきました。本論文では、ソースビデオ内の空間的条件と時間的光フロー情報を共同で活用することで、一貫性のあるV2V合成フレームワークを提案します。従来の手法が光フローに厳密に従うのとは対照的に、我々のアプローチは光フロー推定の不完全性を扱いながらその利点を活用します。最初のフレームからのワープによって光フローを符号化し、拡散モデルにおける補助的な参照として機能させます。これにより、既存のI2Iモデルで最初のフレームを編集し、その編集を後続のフレームに伝播させることで、ビデオ合成を可能にします。我々のV2Vモデル「FlowVid」は以下の顕著な特性を示します:(1)柔軟性:FlowVidは既存のI2Iモデルとシームレスに連携し、スタイル化、オブジェクト交換、ローカル編集など様々な変更を容易にします。(2)効率性:30FPS、512x512解像度の4秒間のビデオ生成に要する時間はわずか1.5分で、これはCoDeF、Rerender、TokenFlowと比較してそれぞれ3.1倍、7.2倍、10.5倍高速です。(3)高品質:ユーザスタディでは、FlowVidは45.7%の支持率を獲得し、CoDeF(3.5%)、Rerender(10.2%)、TokenFlow(40.4%)を上回りました。
English
Diffusion models have transformed the image-to-image (I2I) synthesis and are
now permeating into videos. However, the advancement of video-to-video (V2V)
synthesis has been hampered by the challenge of maintaining temporal
consistency across video frames. This paper proposes a consistent V2V synthesis
framework by jointly leveraging spatial conditions and temporal optical flow
clues within the source video. Contrary to prior methods that strictly adhere
to optical flow, our approach harnesses its benefits while handling the
imperfection in flow estimation. We encode the optical flow via warping from
the first frame and serve it as a supplementary reference in the diffusion
model. This enables our model for video synthesis by editing the first frame
with any prevalent I2I models and then propagating edits to successive frames.
Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility:
FlowVid works seamlessly with existing I2I models, facilitating various
modifications, including stylization, object swaps, and local edits. (2)
Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution
takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF,
Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our
FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender
(10.2%), and TokenFlow (40.4%).