SpaRP: Snelle 3D-objectreconstructie en pose-schatting vanuit schaarse beelden
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
Auteurs: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
Samenvatting
Open-world 3D-generatie heeft recentelijk aanzienlijke aandacht getrokken. Hoewel veel methoden voor het omzetten van één afbeelding naar 3D visueel aantrekkelijke resultaten hebben opgeleverd, missen ze vaak voldoende bestuurbaarheid en produceren ze vaak hallucinatiegebieden die mogelijk niet overeenkomen met de verwachtingen van gebruikers. In dit artikel onderzoeken we een belangrijk scenario waarin de invoer bestaat uit één of enkele ongeposeerde 2D-afbeeldingen van een enkel object, met weinig of geen overlap. We stellen een nieuwe methode voor, SpaRP, om een 3D-textuurmesh te reconstrueren en de relatieve cameraposities voor deze sparse-view afbeeldingen te schatten. SpaRP destilleert kennis uit 2D-diffusiemodellen en fine-tunt deze om impliciet de 3D-ruimtelijke relaties tussen de sparse views af te leiden. Het diffusiemodel wordt getraind om gezamenlijk surrogaatrepresentaties voor cameraposities en multi-view afbeeldingen van het object onder bekende posities te voorspellen, waarbij alle informatie van de invoer sparse views wordt geïntegreerd. Deze voorspellingen worden vervolgens benut om 3D-reconstructie en pose-estimatie te voltooien, en het gereconstrueerde 3D-model kan worden gebruikt om de cameraposities van de invoerweergaven verder te verfijnen. Door uitgebreide experimenten op drie datasets tonen we aan dat onze methode niet alleen significant beter presteert dan baseline-methoden wat betreft de kwaliteit van 3D-reconstructie en nauwkeurigheid van pose-voorspelling, maar ook sterke efficiëntie vertoont. Het kost slechts ongeveer 20 seconden om een textuurmesh en cameraposities voor de invoerweergaven te produceren. Projectpagina: https://chaoxu.xyz/sparp.
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary