단안 비디오를 이용한 동적 뷰 합성을 위한 확산 모델 기반 사전 지식
Diffusion Priors for Dynamic View Synthesis from Monocular Videos
January 10, 2024
저자: Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov
cs.AI
초록
동적 신시점 합성(dynamic novel view synthesis)은 비디오 내 시각적 콘텐츠의 시간적 변화를 포착하는 것을 목표로 합니다. 기존 방법들은 특히 카메라 포즈가 알려지지 않았거나 물체의 움직임에 비해 제한된 상황에서 움직임과 구조를 구분하는 데 어려움을 겪습니다. 또한, 참조 이미지로부터의 정보만으로는 주어진 비디오에서 가려지거나 부분적으로 관찰된 보이지 않는 영역을 예측하는 것이 매우 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 먼저 사전 학습된 RGB-D 확산 모델을 비디오 프레임에 맞춰 커스터마이징 기법을 사용하여 미세 조정합니다. 그런 다음, 미세 조정된 모델에서 동적 및 정적 신경 방사 필드(NeRF) 구성 요소를 모두 포함하는 4D 표현으로 지식을 추출합니다. 제안된 파이프라인은 장면의 정체성을 유지하면서 기하학적 일관성을 달성합니다. 우리는 제안된 방법의 효용성을 정성적 및 정량적으로 평가하기 위해 철저한 실험을 수행합니다. 실험 결과는 우리의 접근 방식이 어려운 사례에서도 견고성과 유용성을 보여주며, 동적 신시점 합성 분야를 더욱 발전시킴을 입증합니다.
English
Dynamic novel view synthesis aims to capture the temporal evolution of visual
content within videos. Existing methods struggle to distinguishing between
motion and structure, particularly in scenarios where camera poses are either
unknown or constrained compared to object motion. Furthermore, with information
solely from reference images, it is extremely challenging to hallucinate unseen
regions that are occluded or partially observed in the given videos. To address
these issues, we first finetune a pretrained RGB-D diffusion model on the video
frames using a customization technique. Subsequently, we distill the knowledge
from the finetuned model to a 4D representations encompassing both dynamic and
static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves
geometric consistency while preserving the scene identity. We perform thorough
experiments to evaluate the efficacy of the proposed method qualitatively and
quantitatively. Our results demonstrate the robustness and utility of our
approach in challenging cases, further advancing dynamic novel view synthesis.