FreeSplatter : Étalement gaussien sans pose pour la reconstruction 3D à vues clairsemées
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
Auteurs: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
Résumé
Les modèles de reconstruction à faible nombre de vues existants dépendent fortement de poses de caméra précises connues. Cependant, dériver les extrinsèques et intrinsèques de la caméra à partir d'images à faible nombre de vues présente des défis importants. Dans ce travail, nous présentons FreeSplatter, un cadre de reconstruction à propagation avant hautement évolutif capable de générer des Gaussiennes 3D de haute qualité à partir d'images à faible nombre de vues non calibrées et de récupérer leurs paramètres de caméra en quelques secondes seulement. FreeSplatter est construit sur une architecture de transformateur rationalisée, comprenant des blocs d'auto-attention séquentiels qui facilitent l'échange d'informations entre les jetons d'image multi-vues et les décodent en primitives Gaussiennes 3D pixel par pixel. Les primitives Gaussiennes prédites sont situées dans un cadre de référence unifié, permettant une modélisation 3D de haute fidélité et une estimation instantanée des paramètres de la caméra à l'aide de solveurs prêts à l'emploi. Pour répondre à la fois à la reconstruction centrée sur l'objet et au niveau de la scène, nous entraînons deux variantes de modèle de FreeSplatter sur des ensembles de données étendus. Dans les deux scénarios, FreeSplatter surpasse les références de pointe en termes de qualité de reconstruction et de précision d'estimation de pose. De plus, nous mettons en avant le potentiel de FreeSplatter pour améliorer la productivité des applications aval, telles que la création de contenu texte/image en 3D.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary