ChatPaper.aiChatPaper

CoDeF: Content Vervormingsvelden voor Tijdelijk Consistente Videoverwerking

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

August 15, 2023
Auteurs: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
cs.AI

Samenvatting

We presenteren het content deformatieveld CoDeF als een nieuw type videorepresentatie, dat bestaat uit een canoniek contentveld dat de statische inhoud in de gehele video aggregeert en een tijdelijk deformatieveld dat de transformaties vastlegt van de canonieke afbeelding (d.w.z., gerenderd vanuit het canonieke contentveld) naar elk individueel frame langs de tijdas. Gegeven een doelvideo worden deze twee velden gezamenlijk geoptimaliseerd om deze te reconstrueren via een zorgvuldig ontworpen renderpijplijn. We introduceren bewust enkele regularisaties in het optimalisatieproces, waardoor het canonieke contentveld semantiek (bijv. de objectvorm) van de video overneemt. Met een dergelijk ontwerp ondersteunt CoDeF van nature het tillen van beeldalgoritmen voor videoverwerking, in die zin dat men een beeldalgoritme kan toepassen op de canonieke afbeelding en de resultaten moeiteloos kan doorvoeren naar de gehele video met behulp van het tijdelijk deformatieveld. We tonen experimenteel aan dat CoDeF in staat is beeld-naar-beeldvertaling te tillen naar video-naar-videovertaling en sleutelpuntdetectie te tillen naar sleutelpuntvolging zonder enige training. Belangrijker nog, dankzij onze tilstrategie die de algoritmen op slechts één afbeelding implementeert, bereiken we superieure consistentie tussen frames in verwerkte video's in vergelijking met bestaande video-naar-videovertalingsbenaderingen, en slagen we er zelfs in om niet-rigide objecten zoals water en rook te volgen. De projectpagina is te vinden op https://qiuyu96.github.io/CoDeF/.
English
We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.
PDF281February 8, 2026