CoDeF: Campi di Deformazione del Contenuto per l'Elaborazione Video Temporalmente Coerente

Abstract

Presentiamo il campo di deformazione del contenuto CoDeF come un nuovo tipo di rappresentazione video, che consiste in un campo di contenuto canonico che aggrega i contenuti statici dell'intero video e un campo di deformazione temporale che registra le trasformazioni dall'immagine canonica (cioè renderizzata dal campo di contenuto canonico) a ciascun fotogramma individuale lungo l'asse temporale. Dato un video target, questi due campi vengono ottimizzati congiuntamente per ricostruirlo attraverso una pipeline di rendering accuratamente progettata. Introduciamo deliberatamente alcune regolarizzazioni nel processo di ottimizzazione, spingendo il campo di contenuto canonico a ereditare la semantica (ad esempio, la forma dell'oggetto) dal video. Con un tale design, CoDeF supporta naturalmente il sollevamento di algoritmi di immagine per l'elaborazione video, nel senso che è possibile applicare un algoritmo di immagine all'immagine canonica e propagare senza sforzo i risultati all'intero video con l'aiuto del campo di deformazione temporale. Sperimentalmente dimostriamo che CoDeF è in grado di sollevare la traduzione da immagine a immagine alla traduzione da video a video e di sollevare il rilevamento di punti chiave al tracciamento di punti chiave senza alcun addestramento. Ancora più importante, grazie alla nostra strategia di sollevamento che implementa gli algoritmi su una sola immagine, otteniamo una superiore coerenza inter-fotogramma nei video elaborati rispetto agli approcci esistenti di traduzione da video a video, e riusciamo persino a tracciare oggetti non rigidi come acqua e smog. La pagina del progetto è disponibile all'indirizzo https://qiuyu96.github.io/CoDeF/.

English

We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.

CoDeF: Campi di Deformazione del Contenuto per l'Elaborazione Video Temporalmente Coerente

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

Abstract

Support