ShapeSplat : un ensemble de données à grande échelle de taches gaussiennes et de leur pré-entraînement auto-supervisé
ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining
August 20, 2024
Auteurs: Qi Ma, Yue Li, Bin Ren, Nicu Sebe, Ender Konukoglu, Theo Gevers, Luc Van Gool, Danda Pani Paudel
cs.AI
Résumé
Le Splatting Gaussien en 3D (3DGS) est devenu la méthode de représentation en 3D de facto dans de nombreuses tâches de vision. Cela nécessite une compréhension en 3D directement dans cet espace de représentation. Pour faciliter la recherche dans cette direction, nous avons d'abord construit un ensemble de données à grande échelle de 3DGS en utilisant les ensembles de données ShapeNet et ModelNet couramment utilisés. Notre ensemble de données ShapeSplat se compose de 65 000 objets issus de 87 catégories uniques, dont les étiquettes sont conformes aux ensembles de données respectifs. La création de cet ensemble de données a nécessité l'équivalent de calcul de 2 années de GPU sur un GPU TITAN XP.
Nous utilisons notre ensemble de données pour un pré-entraînement non supervisé et un fine-tuning supervisé pour des tâches de classification et de segmentation. À cette fin, nous introduisons \textit{Gaussian-MAE}, qui met en avant les avantages uniques de l'apprentissage de la représentation à partir des paramètres gaussiens. À travers des expériences exhaustives, nous fournissons plusieurs insights précieux. En particulier, nous montrons que (1) la distribution des centroïdes GS optimisés diffère significativement de celle du nuage de points échantillonné uniformément (utilisé pour l'initialisation) ; (2) ce changement de distribution entraîne une dégradation de la classification mais une amélioration des tâches de segmentation lors de l'utilisation uniquement des centroïdes ; (3) pour exploiter des paramètres gaussiens supplémentaires, nous proposons un regroupement de caractéristiques gaussiennes dans un espace de caractéristiques normalisé, ainsi qu'une couche de regroupement de splats, offrant une solution sur mesure pour regrouper et intégrer efficacement des gaussiennes similaires, ce qui conduit à une amélioration notable des tâches de fine-tuning.
English
3D Gaussian Splatting (3DGS) has become the de facto method of 3D
representation in many vision tasks. This calls for the 3D understanding
directly in this representation space. To facilitate the research in this
direction, we first build a large-scale dataset of 3DGS using the commonly used
ShapeNet and ModelNet datasets. Our dataset ShapeSplat consists of 65K objects
from 87 unique categories, whose labels are in accordance with the respective
datasets. The creation of this dataset utilized the compute equivalent of 2 GPU
years on a TITAN XP GPU.
We utilize our dataset for unsupervised pretraining and supervised finetuning
for classification and segmentation tasks. To this end, we introduce
\textit{Gaussian-MAE}, which highlights the unique benefits of
representation learning from Gaussian parameters. Through exhaustive
experiments, we provide several valuable insights. In particular, we show that
(1) the distribution of the optimized GS centroids significantly differs from
the uniformly sampled point cloud (used for initialization) counterpart; (2)
this change in distribution results in degradation in classification but
improvement in segmentation tasks when using only the centroids; (3) to
leverage additional Gaussian parameters, we propose Gaussian feature grouping
in a normalized feature space, along with splats pooling layer, offering a
tailored solution to effectively group and embed similar Gaussians, which leads
to notable improvement in finetuning tasks.Summary
AI-Generated Summary