ChatPaper.aiChatPaper

SpaRP:スパースビューからの高速3Dオブジェクト再構成とポーズ推定

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

August 19, 2024
著者: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI

要旨

オープンワールド3D生成は最近、大きな注目を集めています。多くの単一画像から3Dを生成する手法は視覚的に魅力的な結果をもたらしますが、十分な制御性を欠き、ユーザーの期待に沿わない幻覚的な領域を生成する傾向があります。本論文では、単一オブジェクトの1枚または数枚のポーズなし2D画像からなる入力という重要なシナリオを探求します。これらのスパースビュー画像に対して、3Dテクスチャ付きメッシュを再構築し、相対的なカメラポーズを推定する新しい手法SpaRPを提案します。SpaRPは2D拡散モデルから知識を蒸留し、微調整することで、スパースビュー間の3D空間関係を暗黙的に推論します。拡散モデルは、既知のポーズ下でのオブジェクトのカメラポーズとマルチビュー画像の代理表現を共同で予測するように訓練され、入力スパースビューからのすべての情報を統合します。これらの予測を活用して3D再構築とポーズ推定を達成し、再構築された3Dモデルを使用して入力ビューのカメラポーズをさらに洗練させることができます。3つのデータセットでの広範な実験を通じて、本手法が3D再構築品質とポーズ予測精度の両方でベースライン手法を大幅に上回るだけでなく、強力な効率性も示すことを実証します。入力ビューに対してテクスチャ付きメッシュとカメラポーズを生成するのに約20秒しか必要としません。プロジェクトページ: https://chaoxu.xyz/sparp。
English
Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.

Summary

AI-Generated Summary

PDF132November 19, 2024