ChatPaper.aiChatPaper

Priors de Difusión para la Síntesis Dinámica de Vistas a partir de Videos Monoculares

Diffusion Priors for Dynamic View Synthesis from Monocular Videos

January 10, 2024
Autores: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI

Resumen

La síntesis dinámica de nuevas vistas tiene como objetivo capturar la evolución temporal del contenido visual en los videos. Los métodos existentes tienen dificultades para distinguir entre movimiento y estructura, particularmente en escenarios donde las poses de la cámara son desconocidas o están restringidas en comparación con el movimiento de los objetos. Además, con información únicamente de imágenes de referencia, es extremadamente desafiante generar regiones no vistas que están ocluidas o parcialmente observadas en los videos dados. Para abordar estos problemas, primero ajustamos un modelo de difusión RGB-D preentrenado en los fotogramas del video utilizando una técnica de personalización. Posteriormente, destilamos el conocimiento del modelo ajustado a una representación 4D que abarca componentes dinámicos y estáticos de Campos de Radiancia Neural (NeRF). La pipeline propuesta logra consistencia geométrica mientras preserva la identidad de la escena. Realizamos experimentos exhaustivos para evaluar la eficacia del método propuesto cualitativa y cuantitativamente. Nuestros resultados demuestran la robustez y utilidad de nuestro enfoque en casos desafiantes, avanzando aún más en la síntesis dinámica de nuevas vistas.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual content within videos. Existing methods struggle to distinguishing between motion and structure, particularly in scenarios where camera poses are either unknown or constrained compared to object motion. Furthermore, with information solely from reference images, it is extremely challenging to hallucinate unseen regions that are occluded or partially observed in the given videos. To address these issues, we first finetune a pretrained RGB-D diffusion model on the video frames using a customization technique. Subsequently, we distill the knowledge from the finetuned model to a 4D representations encompassing both dynamic and static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves geometric consistency while preserving the scene identity. We perform thorough experiments to evaluate the efficacy of the proposed method qualitatively and quantitatively. Our results demonstrate the robustness and utility of our approach in challenging cases, further advancing dynamic novel view synthesis.
PDF110December 15, 2024