ChatPaper.aiChatPaper

Diffusions-Priors für die dynamische Ansichtssynthese aus monokularen Videos

Diffusion Priors for Dynamic View Synthesis from Monocular Videos

January 10, 2024
Autoren: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI

Zusammenfassung

Die dynamische Synthese neuer Ansichten zielt darauf ab, die zeitliche Entwicklung visueller Inhalte in Videos zu erfassen. Bestehende Methoden haben Schwierigkeiten, zwischen Bewegung und Struktur zu unterscheiden, insbesondere in Szenarien, in denen Kameraposen entweder unbekannt oder im Vergleich zur Objektbewegung eingeschränkt sind. Darüber hinaus ist es äußerst herausfordernd, nicht sichtbare Bereiche, die in den gegebenen Videos verdeckt oder nur teilweise beobachtet sind, allein anhand von Referenzbildern zu rekonstruieren. Um diese Probleme zu lösen, verfeinern wir zunächst ein vortrainiertes RGB-D-Diffusionsmodell auf den Videobildern mithilfe einer Anpassungstechnik. Anschließend destillieren wir das Wissen aus dem verfeinerten Modell in eine 4D-Darstellung, die sowohl dynamische als auch statische Komponenten von Neural Radiance Fields (NeRF) umfasst. Die vorgeschlagene Pipeline erreicht geometrische Konsistenz, während die Identität der Szene bewahrt wird. Wir führen umfassende Experimente durch, um die Wirksamkeit der vorgeschlagenen Methode qualitativ und quantitativ zu bewerten. Unsere Ergebnisse demonstrieren die Robustheit und Nützlichkeit unseres Ansatzes in anspruchsvollen Fällen und tragen so zur Weiterentwicklung der dynamischen Synthese neuer Ansichten bei.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual content within videos. Existing methods struggle to distinguishing between motion and structure, particularly in scenarios where camera poses are either unknown or constrained compared to object motion. Furthermore, with information solely from reference images, it is extremely challenging to hallucinate unseen regions that are occluded or partially observed in the given videos. To address these issues, we first finetune a pretrained RGB-D diffusion model on the video frames using a customization technique. Subsequently, we distill the knowledge from the finetuned model to a 4D representations encompassing both dynamic and static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves geometric consistency while preserving the scene identity. We perform thorough experiments to evaluate the efficacy of the proposed method qualitatively and quantitatively. Our results demonstrate the robustness and utility of our approach in challenging cases, further advancing dynamic novel view synthesis.
PDF110December 15, 2024