CoDeF : Champs de Déformation de Contenu pour le Traitement Vidéo Temporellement Cohérent
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
August 15, 2023
Auteurs: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
cs.AI
Résumé
Nous présentons le champ de déformation de contenu CoDeF comme un nouveau type de représentation vidéo, qui consiste en un champ de contenu canonique agrégeant les contenus statiques de la vidéo entière et un champ de déformation temporelle enregistrant les transformations de l'image canonique (c'est-à-dire rendue à partir du champ de contenu canonique) vers chaque image individuelle le long de l'axe temporel. Étant donné une vidéo cible, ces deux champs sont conjointement optimisés pour la reconstruire à travers un pipeline de rendu soigneusement conçu. Nous introduisons judicieusement certaines régularisations dans le processus d'optimisation, incitant le champ de contenu canonique à hériter de la sémantique (par exemple, la forme de l'objet) de la vidéo. Avec une telle conception, CoDeF supporte naturellement l'élévation d'algorithmes d'image pour le traitement vidéo, dans le sens où l'on peut appliquer un algorithme d'image à l'image canonique et propager sans effort les résultats à l'ensemble de la vidéo avec l'aide du champ de déformation temporelle. Nous montrons expérimentalement que CoDeF est capable d'élever la traduction d'image à image à la traduction de vidéo à vidéo et d'élever la détection de points clés au suivi de points clés sans aucun entraînement. Plus important encore, grâce à notre stratégie d'élévation qui déploie les algorithmes sur une seule image, nous obtenons une cohérence inter-images supérieure dans les vidéos traitées par rapport aux approches existantes de traduction vidéo à vidéo, et parvenons même à suivre des objets non rigides comme l'eau et la fumée. La page du projet peut être trouvée à l'adresse https://qiuyu96.github.io/CoDeF/.
English
We present the content deformation field CoDeF as a new type of video
representation, which consists of a canonical content field aggregating the
static contents in the entire video and a temporal deformation field recording
the transformations from the canonical image (i.e., rendered from the canonical
content field) to each individual frame along the time axis.Given a target
video, these two fields are jointly optimized to reconstruct it through a
carefully tailored rendering pipeline.We advisedly introduce some
regularizations into the optimization process, urging the canonical content
field to inherit semantics (e.g., the object shape) from the video.With such a
design, CoDeF naturally supports lifting image algorithms for video processing,
in the sense that one can apply an image algorithm to the canonical image and
effortlessly propagate the outcomes to the entire video with the aid of the
temporal deformation field.We experimentally show that CoDeF is able to lift
image-to-image translation to video-to-video translation and lift keypoint
detection to keypoint tracking without any training.More importantly, thanks to
our lifting strategy that deploys the algorithms on only one image, we achieve
superior cross-frame consistency in processed videos compared to existing
video-to-video translation approaches, and even manage to track non-rigid
objects like water and smog.Project page can be found at
https://qiuyu96.github.io/CoDeF/.