Priors de diffusion pour la synthèse de vues dynamiques à partir de vidéos monoculaires
Diffusion Priors for Dynamic View Synthesis from Monocular Videos
January 10, 2024
Auteurs: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI
Résumé
La synthèse dynamique de nouvelles vues vise à capturer l'évolution temporelle du contenu visuel dans les vidéos. Les méthodes existantes peinent à distinguer entre le mouvement et la structure, en particulier dans des scénarios où les poses de la caméra sont soit inconnues, soit contraintes par rapport au mouvement des objets. De plus, avec des informations provenant uniquement d'images de référence, il est extrêmement difficile de générer des régions non vues qui sont occultées ou partiellement observées dans les vidéos données. Pour résoudre ces problèmes, nous affinons d'abord un modèle de diffusion RGB-D pré-entraîné sur les images vidéo en utilisant une technique de personnalisation. Ensuite, nous distillons les connaissances du modèle affiné vers des représentations 4D englobant à la fois des composants dynamiques et statiques de champs de radiance neuronaux (NeRF). La pipeline proposée assure une cohérence géométrique tout en préservant l'identité de la scène. Nous menons des expériences approfondies pour évaluer l'efficacité de la méthode proposée de manière qualitative et quantitative. Nos résultats démontrent la robustesse et l'utilité de notre approche dans des cas difficiles, faisant ainsi progresser la synthèse dynamique de nouvelles vues.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual
content within videos. Existing methods struggle to distinguishing between
motion and structure, particularly in scenarios where camera poses are either
unknown or constrained compared to object motion. Furthermore, with information
solely from reference images, it is extremely challenging to hallucinate unseen
regions that are occluded or partially observed in the given videos. To address
these issues, we first finetune a pretrained RGB-D diffusion model on the video
frames using a customization technique. Subsequently, we distill the knowledge
from the finetuned model to a 4D representations encompassing both dynamic and
static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves
geometric consistency while preserving the scene identity. We perform thorough
experiments to evaluate the efficacy of the proposed method qualitatively and
quantitatively. Our results demonstrate the robustness and utility of our
approach in challenging cases, further advancing dynamic novel view synthesis.