CoDeF: Campos de Deformación de Contenido para el Procesamiento Temporalmente Consistente de Videos

Resumen

Presentamos el campo de deformación de contenido CoDeF como un nuevo tipo de representación de video, que consiste en un campo de contenido canónico que agrega los contenidos estáticos de todo el video y un campo de deformación temporal que registra las transformaciones desde la imagen canónica (es decir, renderizada a partir del campo de contenido canónico) hasta cada fotograma individual a lo largo del eje temporal. Dado un video objetivo, estos dos campos se optimizan conjuntamente para reconstruirlo mediante una canalización de renderizado cuidadosamente diseñada. Introducimos deliberadamente algunas regularizaciones en el proceso de optimización, incentivando que el campo de contenido canónico herede semánticas (por ejemplo, la forma del objeto) del video. Con este diseño, CoDeF admite de manera natural la elevación de algoritmos de imagen para el procesamiento de videos, en el sentido de que se puede aplicar un algoritmo de imagen a la imagen canónica y propagar sin esfuerzo los resultados a todo el video con la ayuda del campo de deformación temporal. Experimentalmente demostramos que CoDeF es capaz de elevar la traducción de imagen a imagen a la traducción de video a video, y elevar la detección de puntos clave al seguimiento de puntos clave sin ningún entrenamiento. Más importante aún, gracias a nuestra estrategia de elevación que despliega los algoritmos en una sola imagen, logramos una consistencia inter-fotograma superior en los videos procesados en comparación con los enfoques existentes de traducción de video a video, e incluso logramos rastrear objetos no rígidos como el agua y el smog. La página del proyecto se puede encontrar en https://qiuyu96.github.io/CoDeF/.

English

We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.

CoDeF: Campos de Deformación de Contenido para el Procesamiento Temporalmente Consistente de Videos

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

Resumen

Support