CoDeF: 時間的一貫性を保つビデオ処理のためのコンテンツ変形フィールド
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
August 15, 2023
著者: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
cs.AI
要旨
我々は、新しいタイプのビデオ表現としてコンテンツ変形場CoDeFを提案する。CoDeFは、ビデオ全体の静的なコンテンツを集約する正準コンテンツ場と、正準画像(すなわち正準コンテンツ場からレンダリングされた画像)から各フレームへの時間軸に沿った変形を記録する時間変形場で構成される。対象ビデオが与えられると、これら2つの場は慎重に設計されたレンダリングパイプラインを通じてビデオを再構築するために共同で最適化される。我々は、最適化プロセスにいくつかの正則化を意図的に導入し、正準コンテンツ場がビデオから意味(例えば、物体の形状)を継承するように促す。この設計により、CoDeFは自然に画像アルゴリズムをビデオ処理にリフトアップすることをサポートする。つまり、画像アルゴリズムを正準画像に適用し、時間変形場の助けを借りて結果をビデオ全体に容易に伝播させることができる。我々は実験的に、CoDeFが画像間変換をビデオ間変換に、キーポイント検出をキーポイント追跡に、いかなるトレーニングもなしにリフトアップできることを示す。さらに重要なことに、アルゴリズムを1つの画像にのみ適用する我々のリフトアップ戦略のおかげで、既存のビデオ間変換アプローチと比較して処理されたビデオのフレーム間一貫性が優れており、水や煙のような非剛体オブジェクトの追跡さえ可能である。プロジェクトページはhttps://qiuyu96.github.io/CoDeF/で見つけることができる。
English
We present the content deformation field CoDeF as a new type of video
representation, which consists of a canonical content field aggregating the
static contents in the entire video and a temporal deformation field recording
the transformations from the canonical image (i.e., rendered from the canonical
content field) to each individual frame along the time axis.Given a target
video, these two fields are jointly optimized to reconstruct it through a
carefully tailored rendering pipeline.We advisedly introduce some
regularizations into the optimization process, urging the canonical content
field to inherit semantics (e.g., the object shape) from the video.With such a
design, CoDeF naturally supports lifting image algorithms for video processing,
in the sense that one can apply an image algorithm to the canonical image and
effortlessly propagate the outcomes to the entire video with the aid of the
temporal deformation field.We experimentally show that CoDeF is able to lift
image-to-image translation to video-to-video translation and lift keypoint
detection to keypoint tracking without any training.More importantly, thanks to
our lifting strategy that deploys the algorithms on only one image, we achieve
superior cross-frame consistency in processed videos compared to existing
video-to-video translation approaches, and even manage to track non-rigid
objects like water and smog.Project page can be found at
https://qiuyu96.github.io/CoDeF/.