Make-A-Shape : un modèle de formes 3D à l'échelle de dix millions
Make-A-Shape: a Ten-Million-scale 3D Shape Model
January 20, 2024
Auteurs: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI
Résumé
Des progrès significatifs ont été réalisés dans l'entraînement de grands modèles génératifs pour le langage naturel et les images. Cependant, l'avancement des modèles génératifs 3D est entravé par leurs importantes exigences en ressources pour l'entraînement, ainsi que par des représentations inefficaces, non compactes et moins expressives. Cet article présente Make-A-Shape, un nouveau modèle génératif 3D conçu pour un entraînement efficace à grande échelle, capable d'utiliser 10 millions de formes disponibles publiquement. Sur le plan technique, nous innovons d'abord en proposant une représentation par arbre de wavelets pour encoder de manière compacte les formes, en formulant un schéma de filtrage des coefficients de sous-bandes pour exploiter efficacement les relations entre coefficients. Nous rendons ensuite cette représentation générable par un modèle de diffusion en concevant un schéma de regroupement des coefficients de sous-bandes pour organiser la représentation dans une grille à basse résolution. De plus, nous dérivons une stratégie d'entraînement adaptative des sous-bandes pour entraîner notre modèle à apprendre efficacement à générer des coefficients de wavelets grossiers et détaillés. Enfin, nous étendons notre cadre pour qu'il puisse être contrôlé par des conditions d'entrée supplémentaires, lui permettant de générer des formes à partir de diverses modalités, par exemple des images mono/multi-vues, des nuages de points et des voxels à basse résolution. Dans notre ensemble étendu d'expériences, nous démontrons diverses applications, telles que la génération inconditionnelle, la complétion de formes et la génération conditionnelle sur une large gamme de modalités. Notre approche non seulement surpasse l'état de l'art en fournissant des résultats de haute qualité, mais génère également des formes de manière efficace en quelques secondes, atteignant souvent cet objectif en seulement 2 secondes pour la plupart des conditions.
English
Significant progress has been made in training large generative models for
natural language and images. Yet, the advancement of 3D generative models is
hindered by their substantial resource demands for training, along with
inefficient, non-compact, and less expressive representations. This paper
introduces Make-A-Shape, a new 3D generative model designed for efficient
training on a vast scale, capable of utilizing 10 millions publicly-available
shapes. Technical-wise, we first innovate a wavelet-tree representation to
compactly encode shapes by formulating the subband coefficient filtering scheme
to efficiently exploit coefficient relations. We then make the representation
generatable by a diffusion model by devising the subband coefficients packing
scheme to layout the representation in a low-resolution grid. Further, we
derive the subband adaptive training strategy to train our model to effectively
learn to generate coarse and detail wavelet coefficients. Last, we extend our
framework to be controlled by additional input conditions to enable it to
generate shapes from assorted modalities, e.g., single/multi-view images, point
clouds, and low-resolution voxels. In our extensive set of experiments, we
demonstrate various applications, such as unconditional generation, shape
completion, and conditional generation on a wide range of modalities. Our
approach not only surpasses the state of the art in delivering high-quality
results but also efficiently generates shapes within a few seconds, often
achieving this in just 2 seconds for most conditions.