SpaRP:スパースビューからの高速3Dオブジェクト再構成とポーズ推定
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
著者: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
要旨
オープンワールド3D生成は最近、大きな注目を集めています。多くの単一画像から3Dを生成する手法は視覚的に魅力的な結果をもたらしますが、十分な制御性を欠き、ユーザーの期待に沿わない幻覚的な領域を生成する傾向があります。本論文では、単一オブジェクトの1枚または数枚のポーズなし2D画像からなる入力という重要なシナリオを探求します。これらのスパースビュー画像に対して、3Dテクスチャ付きメッシュを再構築し、相対的なカメラポーズを推定する新しい手法SpaRPを提案します。SpaRPは2D拡散モデルから知識を蒸留し、微調整することで、スパースビュー間の3D空間関係を暗黙的に推論します。拡散モデルは、既知のポーズ下でのオブジェクトのカメラポーズとマルチビュー画像の代理表現を共同で予測するように訓練され、入力スパースビューからのすべての情報を統合します。これらの予測を活用して3D再構築とポーズ推定を達成し、再構築された3Dモデルを使用して入力ビューのカメラポーズをさらに洗練させることができます。3つのデータセットでの広範な実験を通じて、本手法が3D再構築品質とポーズ予測精度の両方でベースライン手法を大幅に上回るだけでなく、強力な効率性も示すことを実証します。入力ビューに対してテクスチャ付きメッシュとカメラポーズを生成するのに約20秒しか必要としません。プロジェクトページ: https://chaoxu.xyz/sparp。
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary