ChatPaper.aiChatPaper

CoDeF: Campos de Deformação de Conteúdo para Processamento de Vídeo Temporalmente Consistente

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

August 15, 2023
Autores: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
cs.AI

Resumo

Apresentamos o campo de deformação de conteúdo CoDeF como um novo tipo de representação de vídeo, que consiste em um campo de conteúdo canônico agregando os conteúdos estáticos de todo o vídeo e um campo de deformação temporal registrando as transformações da imagem canônica (ou seja, renderizada a partir do campo de conteúdo canônico) para cada quadro individual ao longo do eixo do tempo. Dado um vídeo alvo, esses dois campos são otimizados em conjunto para reconstruí-lo por meio de um pipeline de renderização cuidadosamente elaborado. Introduzimos de forma ponderada algumas regularizações no processo de otimização, incentivando o campo de conteúdo canônico a herdar semânticas (por exemplo, a forma do objeto) do vídeo. Com esse design, o CoDeF suporta naturalmente a elevação de algoritmos de imagem para processamento de vídeo, no sentido de que é possível aplicar um algoritmo de imagem à imagem canônica e propagar os resultados de forma simples para todo o vídeo com o auxílio do campo de deformação temporal. Mostramos experimentalmente que o CoDeF é capaz de elevar a tradução de imagem para imagem para tradução de vídeo para vídeo e elevar a detecção de pontos-chave para rastreamento de pontos-chave sem qualquer treinamento. Mais importante, graças à nossa estratégia de elevação que implementa os algoritmos em apenas uma imagem, alcançamos uma consistência inter-quadros superior em vídeos processados em comparação com as abordagens existentes de tradução de vídeo para vídeo, e até conseguimos rastrear objetos não rígidos como água e fumaça. A página do projeto pode ser encontrada em https://qiuyu96.github.io/CoDeF/.
English
We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.
PDF281February 8, 2026