SpaRP: Snelle 3D-objectreconstructie en pose-schatting vanuit schaarse beelden

Samenvatting

Open-world 3D-generatie heeft recentelijk aanzienlijke aandacht getrokken. Hoewel veel methoden voor het omzetten van één afbeelding naar 3D visueel aantrekkelijke resultaten hebben opgeleverd, missen ze vaak voldoende bestuurbaarheid en produceren ze vaak hallucinatiegebieden die mogelijk niet overeenkomen met de verwachtingen van gebruikers. In dit artikel onderzoeken we een belangrijk scenario waarin de invoer bestaat uit één of enkele ongeposeerde 2D-afbeeldingen van een enkel object, met weinig of geen overlap. We stellen een nieuwe methode voor, SpaRP, om een 3D-textuurmesh te reconstrueren en de relatieve cameraposities voor deze sparse-view afbeeldingen te schatten. SpaRP destilleert kennis uit 2D-diffusiemodellen en fine-tunt deze om impliciet de 3D-ruimtelijke relaties tussen de sparse views af te leiden. Het diffusiemodel wordt getraind om gezamenlijk surrogaatrepresentaties voor cameraposities en multi-view afbeeldingen van het object onder bekende posities te voorspellen, waarbij alle informatie van de invoer sparse views wordt geïntegreerd. Deze voorspellingen worden vervolgens benut om 3D-reconstructie en pose-estimatie te voltooien, en het gereconstrueerde 3D-model kan worden gebruikt om de cameraposities van de invoerweergaven verder te verfijnen. Door uitgebreide experimenten op drie datasets tonen we aan dat onze methode niet alleen significant beter presteert dan baseline-methoden wat betreft de kwaliteit van 3D-reconstructie en nauwkeurigheid van pose-voorspelling, maar ook sterke efficiëntie vertoont. Het kost slechts ongeveer 20 seconden om een textuurmesh en cameraposities voor de invoerweergaven te produceren. Projectpagina: https://chaoxu.xyz/sparp.

English

Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.

SpaRP: Snelle 3D-objectreconstructie en pose-schatting vanuit schaarse beelden

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Samenvatting

Summary

Support

Support