ChatPaper.aiChatPaper

Make-A-Shape: Ein Zehn-Millionen-Modell für 3D-Formen

Make-A-Shape: a Ten-Million-scale 3D Shape Model

January 20, 2024
Autoren: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI

Zusammenfassung

Erhebliche Fortschritte wurden beim Training großer generativer Modelle für natürliche Sprache und Bilder erzielt. Dennoch wird die Weiterentwicklung von 3D-generativen Modellen durch ihren erheblichen Ressourcenbedarf für das Training sowie durch ineffiziente, nicht kompakte und weniger ausdrucksstarke Repräsentationen behindert. Dieses Paper stellt Make-A-Shape vor, ein neues 3D-generatives Modell, das für effizientes Training in großem Maßstab entwickelt wurde und in der Lage ist, 10 Millionen öffentlich verfügbare Formen zu nutzen. Technisch gesehen führen wir zunächst eine Wavelet-Baum-Repräsentation ein, um Formen kompakt zu kodieren, indem wir ein Subband-Koeffizienten-Filterungsschema formulieren, um die Beziehungen zwischen den Koeffizienten effizient auszunutzen. Anschließend machen wir die Repräsentation durch ein Diffusionsmodell generierbar, indem wir ein Subband-Koeffizienten-Packungsschema entwickeln, um die Repräsentation in einem niedrigauflösenden Raster anzuordnen. Darüber hinaus leiten wir eine Subband-adaptive Trainingsstrategie ab, um unser Modell effektiv zu trainieren, grobe und detaillierte Wavelet-Koeffizienten zu generieren. Schließlich erweitern wir unser Framework, um es durch zusätzliche Eingabebedingungen steuern zu können, sodass es Formen aus verschiedenen Modalitäten generieren kann, z. B. Einzel-/Mehransichtsbilder, Punktwolken und niedrigauflösende Voxel. In unseren umfangreichen Experimenten demonstrieren wir verschiedene Anwendungen, wie unkonditionierte Generierung, Formvervollständigung und konditionierte Generierung über eine breite Palette von Modalitäten hinweg. Unser Ansatz übertrifft nicht nur den Stand der Technik in der Lieferung hochwertiger Ergebnisse, sondern generiert auch effizient Formen innerhalb weniger Sekunden, oft in nur 2 Sekunden für die meisten Bedingungen.
English
Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.
PDF171December 15, 2024