Диффузионные априорные модели для динамического синтеза видов из монокулярных видео
Diffusion Priors for Dynamic View Synthesis from Monocular Videos
January 10, 2024
Авторы: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI
Аннотация
Синтез динамических новых видов направлен на захват временной эволюции визуального содержания в видеороликах. Существующие методы испытывают трудности с разделением движения и структуры, особенно в сценариях, где позы камеры либо неизвестны, либо ограничены по сравнению с движением объектов. Кроме того, имея информацию только из опорных изображений, крайне сложно воссоздать невидимые области, которые скрыты или частично наблюдаются в предоставленных видео. Для решения этих проблем мы сначала дообучаем предварительно обученную RGB-D диффузионную модель на кадрах видео с использованием техники кастомизации. Затем мы дистиллируем знания из дообученной модели в 4D-представления, включающие как динамические, так и статические компоненты Neural Radiance Fields (NeRF). Предложенный подход обеспечивает геометрическую согласованность, сохраняя при этом идентичность сцены. Мы проводим тщательные эксперименты для качественной и количественной оценки эффективности предложенного метода. Наши результаты демонстрируют устойчивость и полезность нашего подхода в сложных случаях, что способствует дальнейшему развитию синтеза динамических новых видов.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual
content within videos. Existing methods struggle to distinguishing between
motion and structure, particularly in scenarios where camera poses are either
unknown or constrained compared to object motion. Furthermore, with information
solely from reference images, it is extremely challenging to hallucinate unseen
regions that are occluded or partially observed in the given videos. To address
these issues, we first finetune a pretrained RGB-D diffusion model on the video
frames using a customization technique. Subsequently, we distill the knowledge
from the finetuned model to a 4D representations encompassing both dynamic and
static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves
geometric consistency while preserving the scene identity. We perform thorough
experiments to evaluate the efficacy of the proposed method qualitatively and
quantitatively. Our results demonstrate the robustness and utility of our
approach in challenging cases, further advancing dynamic novel view synthesis.