Make-A-Shape: Um Modelo de Formas 3D em Escala de Dez Milhões

Resumo

Progressos significativos foram alcançados no treinamento de grandes modelos generativos para linguagem natural e imagens. No entanto, o avanço dos modelos generativos 3D é dificultado por suas demandas substanciais de recursos para treinamento, juntamente com representações ineficientes, não compactas e menos expressivas. Este artigo apresenta o Make-A-Shape, um novo modelo generativo 3D projetado para treinamento eficiente em grande escala, capaz de utilizar 10 milhões de formas publicamente disponíveis. Tecnicamente, primeiro inovamos uma representação de árvore de wavelets para codificar formas de maneira compacta, formulando o esquema de filtragem de coeficientes de subbanda para explorar eficientemente as relações entre os coeficientes. Em seguida, tornamos a representação gerável por um modelo de difusão, desenvolvendo o esquema de empacotamento de coeficientes de subbanda para organizar a representação em uma grade de baixa resolução. Além disso, derivamos a estratégia de treinamento adaptativo de subbanda para treinar nosso modelo a aprender efetivamente a gerar coeficientes de wavelets grossos e detalhados. Por fim, estendemos nosso framework para ser controlado por condições de entrada adicionais, permitindo que ele gere formas a partir de diversas modalidades, como imagens de visão única/múltipla, nuvens de pontos e voxels de baixa resolução. Em nosso extenso conjunto de experimentos, demonstramos várias aplicações, como geração incondicional, completamento de formas e geração condicional em uma ampla gama de modalidades. Nossa abordagem não apenas supera o estado da arte na entrega de resultados de alta qualidade, mas também gera formas de maneira eficiente em poucos segundos, muitas vezes alcançando isso em apenas 2 segundos para a maioria das condições.

English

Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.

Make-A-Shape: Um Modelo de Formas 3D em Escala de Dez Milhões

Make-A-Shape: a Ten-Million-scale 3D Shape Model

Resumo

Support