ChatPaper.aiChatPaper

FreeSplatter : Étalement gaussien sans pose pour la reconstruction 3D à vues clairsemées

FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

December 12, 2024
Auteurs: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI

Résumé

Les modèles de reconstruction à faible nombre de vues existants dépendent fortement de poses de caméra précises connues. Cependant, dériver les extrinsèques et intrinsèques de la caméra à partir d'images à faible nombre de vues présente des défis importants. Dans ce travail, nous présentons FreeSplatter, un cadre de reconstruction à propagation avant hautement évolutif capable de générer des Gaussiennes 3D de haute qualité à partir d'images à faible nombre de vues non calibrées et de récupérer leurs paramètres de caméra en quelques secondes seulement. FreeSplatter est construit sur une architecture de transformateur rationalisée, comprenant des blocs d'auto-attention séquentiels qui facilitent l'échange d'informations entre les jetons d'image multi-vues et les décodent en primitives Gaussiennes 3D pixel par pixel. Les primitives Gaussiennes prédites sont situées dans un cadre de référence unifié, permettant une modélisation 3D de haute fidélité et une estimation instantanée des paramètres de la caméra à l'aide de solveurs prêts à l'emploi. Pour répondre à la fois à la reconstruction centrée sur l'objet et au niveau de la scène, nous entraînons deux variantes de modèle de FreeSplatter sur des ensembles de données étendus. Dans les deux scénarios, FreeSplatter surpasse les références de pointe en termes de qualité de reconstruction et de précision d'estimation de pose. De plus, nous mettons en avant le potentiel de FreeSplatter pour améliorer la productivité des applications aval, telles que la création de contenu texte/image en 3D.
English
Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter's potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.

Summary

AI-Generated Summary

PDF83December 13, 2024