ShapeSplat : un ensemble de données à grande échelle de taches gaussiennes et de leur pré-entraînement auto-supervisé

Résumé

Le Splatting Gaussien en 3D (3DGS) est devenu la méthode de représentation en 3D de facto dans de nombreuses tâches de vision. Cela nécessite une compréhension en 3D directement dans cet espace de représentation. Pour faciliter la recherche dans cette direction, nous avons d'abord construit un ensemble de données à grande échelle de 3DGS en utilisant les ensembles de données ShapeNet et ModelNet couramment utilisés. Notre ensemble de données ShapeSplat se compose de 65 000 objets issus de 87 catégories uniques, dont les étiquettes sont conformes aux ensembles de données respectifs. La création de cet ensemble de données a nécessité l'équivalent de calcul de 2 années de GPU sur un GPU TITAN XP. Nous utilisons notre ensemble de données pour un pré-entraînement non supervisé et un fine-tuning supervisé pour des tâches de classification et de segmentation. À cette fin, nous introduisons \textit{Gaussian-MAE}, qui met en avant les avantages uniques de l'apprentissage de la représentation à partir des paramètres gaussiens. À travers des expériences exhaustives, nous fournissons plusieurs insights précieux. En particulier, nous montrons que (1) la distribution des centroïdes GS optimisés diffère significativement de celle du nuage de points échantillonné uniformément (utilisé pour l'initialisation) ; (2) ce changement de distribution entraîne une dégradation de la classification mais une amélioration des tâches de segmentation lors de l'utilisation uniquement des centroïdes ; (3) pour exploiter des paramètres gaussiens supplémentaires, nous proposons un regroupement de caractéristiques gaussiennes dans un espace de caractéristiques normalisé, ainsi qu'une couche de regroupement de splats, offrant une solution sur mesure pour regrouper et intégrer efficacement des gaussiennes similaires, ce qui conduit à une amélioration notable des tâches de fine-tuning.

English

3D Gaussian Splatting (3DGS) has become the de facto method of 3D representation in many vision tasks. This calls for the 3D understanding directly in this representation space. To facilitate the research in this direction, we first build a large-scale dataset of 3DGS using the commonly used ShapeNet and ModelNet datasets. Our dataset ShapeSplat consists of 65K objects from 87 unique categories, whose labels are in accordance with the respective datasets. The creation of this dataset utilized the compute equivalent of 2 GPU years on a TITAN XP GPU. We utilize our dataset for unsupervised pretraining and supervised finetuning for classification and segmentation tasks. To this end, we introduce \textit{Gaussian-MAE}, which highlights the unique benefits of representation learning from Gaussian parameters. Through exhaustive experiments, we provide several valuable insights. In particular, we show that (1) the distribution of the optimized GS centroids significantly differs from the uniformly sampled point cloud (used for initialization) counterpart; (2) this change in distribution results in degradation in classification but improvement in segmentation tasks when using only the centroids; (3) to leverage additional Gaussian parameters, we propose Gaussian feature grouping in a normalized feature space, along with splats pooling layer, offering a tailored solution to effectively group and embed similar Gaussians, which leads to notable improvement in finetuning tasks.

ShapeSplat : un ensemble de données à grande échelle de taches gaussiennes et de leur pré-entraînement auto-supervisé

ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining

Résumé

Support