Make-A-Shape: un Modello di Forme 3D su Scala Dieci Milioni

Abstract

Sono stati compiuti progressi significativi nell'addestramento di grandi modelli generativi per il linguaggio naturale e le immagini. Tuttavia, l'avanzamento dei modelli generativi 3D è ostacolato dalle loro elevate richieste di risorse per l'addestramento, oltre a rappresentazioni inefficienti, non compatte e meno espressive. Questo articolo introduce Make-A-Shape, un nuovo modello generativo 3D progettato per un addestramento efficiente su larga scala, in grado di utilizzare 10 milioni di forme disponibili pubblicamente. Dal punto di vista tecnico, innoviamo innanzitutto una rappresentazione a wavelet-tree per codificare in modo compatto le forme, formulando uno schema di filtraggio dei coefficienti delle sottobande per sfruttare efficientemente le relazioni tra i coefficienti. Rendiamo poi questa rappresentazione generabile da un modello di diffusione, ideando uno schema di impacchettamento dei coefficienti delle sottobande per disporre la rappresentazione in una griglia a bassa risoluzione. Inoltre, deriviamo una strategia di addestramento adattivo alle sottobande per addestrare il nostro modello a generare efficacemente coefficienti wavelet sia grossolani che dettagliati. Infine, estendiamo il nostro framework per essere controllato da condizioni di input aggiuntive, consentendogli di generare forme da varie modalità, ad esempio immagini singole/multipla, nuvole di punti e voxel a bassa risoluzione. Nella nostra ampia serie di esperimenti, dimostriamo varie applicazioni, come la generazione incondizionata, il completamento di forme e la generazione condizionata su un'ampia gamma di modalità. Il nostro approccio non solo supera lo stato dell'arte nel fornire risultati di alta qualità, ma genera anche forme in modo efficiente in pochi secondi, spesso raggiungendo questo obiettivo in soli 2 secondi per la maggior parte delle condizioni.

English

Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.

Make-A-Shape: un Modello di Forme 3D su Scala Dieci Milioni

Make-A-Shape: a Ten-Million-scale 3D Shape Model

Abstract

Support