ChatPaper.aiChatPaper

Make-A-Shape: een 3D-vormmodel op schaal van tien miljoen

Make-A-Shape: a Ten-Million-scale 3D Shape Model

January 20, 2024
Auteurs: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI

Samenvatting

Er is aanzienlijke vooruitgang geboekt in het trainen van grote generatieve modellen voor natuurlijke taal en afbeeldingen. Echter wordt de vooruitgang van 3D-generatieve modellen belemmerd door hun aanzienlijke resourcebehoeften voor training, samen met inefficiënte, niet-compacte en minder expressieve representaties. Dit artikel introduceert Make-A-Shape, een nieuw 3D-generatief model ontworpen voor efficiënte training op grote schaal, in staat om 10 miljoen publiek beschikbare vormen te benutten. Technisch gezien introduceren we eerst een wavelet-boomrepresentatie om vormen compact te coderen door het subband-coëfficiëntfilteringschema te formuleren om coëfficiëntrelaties efficiënt te benutten. Vervolgens maken we de representatie genereerbaar door een diffusiemodel door het subband-coëfficiëntenpakschema te ontwerpen om de representatie in een lage-resolutie raster te plaatsen. Verder leiden we de subband-adaptieve trainingsstrategie af om ons model effectief te trainen in het genereren van grove en gedetailleerde waveletcoëfficiënten. Ten slotte breiden we ons framework uit om te worden bestuurd door aanvullende invoercondities, waardoor het vormen kan genereren uit diverse modaliteiten, zoals enkelvoudige/meervoudige afbeeldingen, puntenwolken en lage-resolutie voxels. In onze uitgebreide set experimenten demonstreren we diverse toepassingen, zoals onvoorwaardelijke generatie, vormvoltooiing en conditionele generatie op een breed scala aan modaliteiten. Onze aanpak overtreft niet alleen de state-of-the-art in het leveren van hoogwaardige resultaten, maar genereert ook efficiënt vormen binnen enkele seconden, vaak al in slechts 2 seconden voor de meeste condities.
English
Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.
PDF171December 15, 2024