ChatPaper.aiChatPaper

Priors de diffusion pour la synthèse de vues dynamiques à partir de vidéos monoculaires

Diffusion Priors for Dynamic View Synthesis from Monocular Videos

January 10, 2024
Auteurs: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI

Résumé

La synthèse dynamique de nouvelles vues vise à capturer l'évolution temporelle du contenu visuel dans les vidéos. Les méthodes existantes peinent à distinguer entre le mouvement et la structure, en particulier dans des scénarios où les poses de la caméra sont soit inconnues, soit contraintes par rapport au mouvement des objets. De plus, avec des informations provenant uniquement d'images de référence, il est extrêmement difficile de générer des régions non vues qui sont occultées ou partiellement observées dans les vidéos données. Pour résoudre ces problèmes, nous affinons d'abord un modèle de diffusion RGB-D pré-entraîné sur les images vidéo en utilisant une technique de personnalisation. Ensuite, nous distillons les connaissances du modèle affiné vers des représentations 4D englobant à la fois des composants dynamiques et statiques de champs de radiance neuronaux (NeRF). La pipeline proposée assure une cohérence géométrique tout en préservant l'identité de la scène. Nous menons des expériences approfondies pour évaluer l'efficacité de la méthode proposée de manière qualitative et quantitative. Nos résultats démontrent la robustesse et l'utilité de notre approche dans des cas difficiles, faisant ainsi progresser la synthèse dynamique de nouvelles vues.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual content within videos. Existing methods struggle to distinguishing between motion and structure, particularly in scenarios where camera poses are either unknown or constrained compared to object motion. Furthermore, with information solely from reference images, it is extremely challenging to hallucinate unseen regions that are occluded or partially observed in the given videos. To address these issues, we first finetune a pretrained RGB-D diffusion model on the video frames using a customization technique. Subsequently, we distill the knowledge from the finetuned model to a 4D representations encompassing both dynamic and static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves geometric consistency while preserving the scene identity. We perform thorough experiments to evaluate the efficacy of the proposed method qualitatively and quantitatively. Our results demonstrate the robustness and utility of our approach in challenging cases, further advancing dynamic novel view synthesis.
PDF110December 15, 2024