SpaRP: 희소 뷰로부터의 빠른 3D 객체 재구성 및 자세 추정
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
저자: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
초록
최근에는 오픈 월드 3D 생성이 상당한 관심을 끌었습니다. 많은 단일 이미지에서 3D로의 변환 방법이 시각적으로 매력적인 결과물을 도출했지만, 종종 충분한 조작 가능성이 부족하고 사용자의 기대와 일치하지 않을 수 있는 환상적인 영역을 생성하는 경향이 있습니다. 본 논문에서는 입력이 하나 또는 몇 개의 포즈되지 않은 2D 이미지로 이루어진 단일 객체의 경우를 탐구합니다. 우리는 SpaRP라는 새로운 방법을 제안하여 이러한 희소한 시점 이미지에 대한 3D 텍스처 매쉬를 재구성하고 상대적인 카메라 포즈를 추정합니다. SpaRP는 2D 확산 모델로부터 지식을 추출하고, 이를 사용하여 희소한 시점 사이의 3D 공간 관계를 암시적으로 추론합니다. 확산 모델은 카메라 포즈와 알려진 포즈 하에 객체의 다중 시점 이미지에 대한 대리 표현을 공동으로 예측하도록 훈련되며, 입력 희소한 시점에서 모든 정보를 통합합니다. 이러한 예측은 3D 재구성과 포즈 추정을 수행하고, 재구성된 3D 모델은 입력 뷰의 카메라 포즈를 더욱 세밀하게 조정하는 데 사용될 수 있습니다. 세 개의 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 3D 재구성 품질과 포즈 예측 정확도 측면에서 기준선 방법을 크게 능가하며 강력한 효율성을 나타내는 것을 입증합니다. 입력 뷰에 대한 텍스처 매쉬와 카메라 포즈를 생성하는 데 약 20초 정도만 소요됩니다. 프로젝트 페이지: https://chaoxu.xyz/sparp.
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary