ChatPaper.aiChatPaper

CoDeF: Поля деформации контента для временной согласованности обработки видео

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

August 15, 2023
Авторы: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen
cs.AI

Аннотация

Мы представляем поле деформации контента CoDeF как новый тип представления видео, которое состоит из канонического поля контента, агрегирующего статическое содержимое всего видео, и временного поля деформации, фиксирующего преобразования от канонического изображения (т.е., визуализированного из канонического поля контента) к каждому отдельному кадру вдоль временной оси. Для целевого видео эти два поля совместно оптимизируются для его реконструкции через тщательно разработанный конвейер визуализации. Мы намеренно вводим некоторые регуляризации в процесс оптимизации, побуждая каноническое поле контента наследовать семантику (например, форму объекта) из видео. Благодаря такому дизайну, CoDeF естественным образом поддерживает перенос алгоритмов обработки изображений на видео, в том смысле, что можно применить алгоритм обработки изображений к каноническому изображению и легко распространить результаты на всё видео с помощью временного поля деформации. Экспериментально мы показываем, что CoDeF способен переносить преобразование изображение-в-изображение на преобразование видео-в-видео, а также переносить обнаружение ключевых точек на отслеживание ключевых точек без какого-либо обучения. Более того, благодаря нашей стратегии переноса, которая применяет алгоритмы только к одному изображению, мы достигаем превосходной согласованности между кадрами в обработанных видео по сравнению с существующими подходами преобразования видео-в-видео, и даже успешно отслеживаем нежесткие объекты, такие как вода и дым. Страница проекта доступна по адресу https://qiuyu96.github.io/CoDeF/.
English
We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.
PDF281December 15, 2024