Make-A-Shape: un modelo de formas 3D a escala de diez millones
Make-A-Shape: a Ten-Million-scale 3D Shape Model
January 20, 2024
Autores: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI
Resumen
Se han logrado avances significativos en el entrenamiento de modelos generativos grandes para lenguaje natural e imágenes. Sin embargo, el progreso de los modelos generativos 3D se ve obstaculizado por sus considerables demandas de recursos para el entrenamiento, junto con representaciones ineficientes, no compactas y menos expresivas. Este artículo presenta Make-A-Shape, un nuevo modelo generativo 3D diseñado para un entrenamiento eficiente a gran escala, capaz de utilizar 10 millones de formas disponibles públicamente. Técnicamente, primero innovamos una representación de árbol de wavelets para codificar formas de manera compacta, formulando un esquema de filtrado de coeficientes de subbandas que explota eficientemente las relaciones entre coeficientes. Luego, hacemos que esta representación sea generable mediante un modelo de difusión, ideando un esquema de empaquetado de coeficientes de subbandas para organizar la representación en una cuadrícula de baja resolución. Además, derivamos una estrategia de entrenamiento adaptativo de subbandas para entrenar nuestro modelo y que aprenda efectivamente a generar coeficientes de wavelets tanto gruesos como detallados. Por último, extendemos nuestro marco para que pueda ser controlado por condiciones de entrada adicionales, permitiéndole generar formas a partir de diversas modalidades, como imágenes de una/múltiples vistas, nubes de puntos y vóxeles de baja resolución. En nuestro extenso conjunto de experimentos, demostramos diversas aplicaciones, como generación incondicional, completado de formas y generación condicional en una amplia gama de modalidades. Nuestro enfoque no solo supera el estado del arte al ofrecer resultados de alta calidad, sino que también genera formas de manera eficiente en pocos segundos, logrando esto en solo 2 segundos para la mayoría de las condiciones.
English
Significant progress has been made in training large generative models for
natural language and images. Yet, the advancement of 3D generative models is
hindered by their substantial resource demands for training, along with
inefficient, non-compact, and less expressive representations. This paper
introduces Make-A-Shape, a new 3D generative model designed for efficient
training on a vast scale, capable of utilizing 10 millions publicly-available
shapes. Technical-wise, we first innovate a wavelet-tree representation to
compactly encode shapes by formulating the subband coefficient filtering scheme
to efficiently exploit coefficient relations. We then make the representation
generatable by a diffusion model by devising the subband coefficients packing
scheme to layout the representation in a low-resolution grid. Further, we
derive the subband adaptive training strategy to train our model to effectively
learn to generate coarse and detail wavelet coefficients. Last, we extend our
framework to be controlled by additional input conditions to enable it to
generate shapes from assorted modalities, e.g., single/multi-view images, point
clouds, and low-resolution voxels. In our extensive set of experiments, we
demonstrate various applications, such as unconditional generation, shape
completion, and conditional generation on a wide range of modalities. Our
approach not only surpasses the state of the art in delivering high-quality
results but also efficiently generates shapes within a few seconds, often
achieving this in just 2 seconds for most conditions.