Diffusiepriors voor dynamische weergavesynthese vanuit monoscopische video's
Diffusion Priors for Dynamic View Synthesis from Monocular Videos
January 10, 2024
Auteurs: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI
Samenvatting
Dynamische synthese van nieuwe perspectieven heeft als doel de temporele evolutie van visuele inhoud in video's vast te leggen. Bestaande methoden hebben moeite om beweging en structuur te onderscheiden, vooral in scenario's waar cameraposities onbekend of beperkt zijn in vergelijking met objectbeweging. Bovendien is het, met alleen informatie uit referentiebeelden, buitengewoon uitdagend om onzichtbare gebieden die verborgen of gedeeltelijk waargenomen zijn in de gegeven video's, te hallucineren. Om deze problemen aan te pakken, finetunen we eerst een vooraf getraind RGB-D diffusiemodel op de videoframes met behulp van een aanpassingstechniek. Vervolgens destilleren we de kennis van het gefinetunede model naar een 4D-representatie die zowel dynamische als statische Neural Radiance Fields (NeRF) componenten omvat. De voorgestelde pijplijn bereikt geometrische consistentie terwijl de scène-identiteit behouden blijft. We voeren uitgebreide experimenten uit om de effectiviteit van de voorgestelde methode kwalitatief en kwantitatief te evalueren. Onze resultaten tonen de robuustheid en het nut van onze aanpak in uitdagende gevallen, wat de dynamische synthese van nieuwe perspectieven verder vooruithelpt.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual
content within videos. Existing methods struggle to distinguishing between
motion and structure, particularly in scenarios where camera poses are either
unknown or constrained compared to object motion. Furthermore, with information
solely from reference images, it is extremely challenging to hallucinate unseen
regions that are occluded or partially observed in the given videos. To address
these issues, we first finetune a pretrained RGB-D diffusion model on the video
frames using a customization technique. Subsequently, we distill the knowledge
from the finetuned model to a 4D representations encompassing both dynamic and
static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves
geometric consistency while preserving the scene identity. We perform thorough
experiments to evaluate the efficacy of the proposed method qualitatively and
quantitatively. Our results demonstrate the robustness and utility of our
approach in challenging cases, further advancing dynamic novel view synthesis.