ChatPaper.aiChatPaper

ReconX: 비디오 확산 모델을 활용한 희소 뷰에서의 장면 재구성

ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

August 29, 2024
저자: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI

초록

3D 장면 재구성 기술의 발전으로 인해 실세계의 2D 이미지들이 3D 모델로 변환되며, 수백 장의 입력 사진으로부터 사실적인 3D 결과물을 생성할 수 있게 되었습니다. 밀집 뷰 재구성 시나리오에서는 큰 성공을 거두었지만, 불충분한 뷰에서 세부적인 장면을 렌더링하는 것은 여전히 잘 정의되지 않은 최적화 문제로, 보이지 않는 영역에서 아티팩트와 왜곡이 발생하는 경우가 많습니다. 본 논문에서는 이러한 모호한 재구성 문제를 시간적 생성 작업으로 재구성하는 새로운 3D 장면 재구성 패러다임인 ReconX를 제안합니다. 핵심 통찰은 희소 뷰 재구성을 위해 대규모 사전 학습된 비디오 확산 모델의 강력한 생성 사전 지식을 활용하는 것입니다. 그러나 사전 학습된 모델에서 직접 생성된 비디오 프레임에서는 3D 뷰 일관성을 정확하게 유지하기 어렵습니다. 이를 해결하기 위해, 제안된 ReconX는 제한된 입력 뷰가 주어졌을 때 먼저 전역 포인트 클라우드를 구성하고 이를 3D 구조 조건으로서 컨텍스트 공간에 인코딩합니다. 이 조건의 지도 하에 비디오 확산 모델은 세부 사항을 보존하면서도 높은 수준의 3D 일관성을 나타내는 비디오 프레임을 합성하여 다양한 관점에서 장면의 일관성을 보장합니다. 마지막으로, 생성된 비디오를 통해 신뢰도 기반 3D 가우시안 스플래팅 최적화 기법을 사용하여 3D 장면을 복원합니다. 다양한 실세계 데이터셋에 대한 광범위한 실험을 통해 ReconX가 품질과 일반화 능력 측면에서 최신 방법들을 능가함을 보여줍니다.
English
Advancements in 3D scene reconstruction have transformed 2D images from the real world into 3D models, producing realistic 3D results from hundreds of input photos. Despite great success in dense-view reconstruction scenarios, rendering a detailed scene from insufficient captured views is still an ill-posed optimization problem, often resulting in artifacts and distortions in unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction paradigm that reframes the ambiguous reconstruction challenge as a temporal generation task. The key insight is to unleash the strong generative prior of large pre-trained video diffusion models for sparse-view reconstruction. However, 3D view consistency struggles to be accurately preserved in directly generated video frames from pre-trained models. To address this, given limited input views, the proposed ReconX first constructs a global point cloud and encodes it into a contextual space as the 3D structure condition. Guided by the condition, the video diffusion model then synthesizes video frames that are both detail-preserved and exhibit a high degree of 3D consistency, ensuring the coherence of the scene from various perspectives. Finally, we recover the 3D scene from the generated video through a confidence-aware 3D Gaussian Splatting optimization scheme. Extensive experiments on various real-world datasets show the superiority of our ReconX over state-of-the-art methods in terms of quality and generalizability.
PDF322November 14, 2024