Make-A-Shape: 천만 규모의 3D 형태 모델
Make-A-Shape: a Ten-Million-scale 3D Shape Model
January 20, 2024
저자: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI
초록
자연어와 이미지 분야에서 대규모 생성 모델 훈련에 있어 상당한 진전이 이루어졌습니다. 그러나 3D 생성 모델의 발전은 훈련에 필요한 막대한 자원 요구와 비효율적이고 비압축적이며 표현력이 떨어지는 표현 방식으로 인해 제약을 받고 있습니다. 본 논문은 대규모 훈련에 효율적으로 적용 가능한 새로운 3D 생성 모델인 Make-A-Shape를 소개합니다. 이 모델은 공개적으로 이용 가능한 1천만 개의 형태를 활용할 수 있습니다. 기술적인 측면에서, 우리는 먼저 웨이블릿 트리 표현을 혁신적으로 도입하여 형태를 압축적으로 인코딩하고, 서브밴드 계수 필터링 기법을 공식화하여 계수 간의 관계를 효율적으로 활용합니다. 그런 다음, 이 표현을 확산 모델로 생성 가능하도록 만들기 위해 서브밴드 계수 패킹 기법을 고안하여 저해상도 그리드에 표현을 배치합니다. 더 나아가, 우리는 서브밴드 적응형 훈련 전략을 도출하여 모델이 거친 웨이블릿 계수와 세부 웨이블릿 계수를 효과적으로 생성하도록 학습시킵니다. 마지막으로, 우리는 프레임워크를 확장하여 추가 입력 조건에 의해 제어될 수 있도록 하여 단일/다중 뷰 이미지, 포인트 클라우드, 저해상도 복셀 등 다양한 형태로부터 형태를 생성할 수 있게 합니다. 광범위한 실험을 통해 우리는 무조건 생성, 형태 완성, 다양한 형태에 대한 조건부 생성 등 다양한 응용 사례를 입증합니다. 우리의 접근 방식은 고품질 결과를 제공하는 데 있어 최신 기술을 능가할 뿐만 아니라, 대부분의 조건에서 단 2초 내에 형태를 효율적으로 생성합니다.
English
Significant progress has been made in training large generative models for
natural language and images. Yet, the advancement of 3D generative models is
hindered by their substantial resource demands for training, along with
inefficient, non-compact, and less expressive representations. This paper
introduces Make-A-Shape, a new 3D generative model designed for efficient
training on a vast scale, capable of utilizing 10 millions publicly-available
shapes. Technical-wise, we first innovate a wavelet-tree representation to
compactly encode shapes by formulating the subband coefficient filtering scheme
to efficiently exploit coefficient relations. We then make the representation
generatable by a diffusion model by devising the subband coefficients packing
scheme to layout the representation in a low-resolution grid. Further, we
derive the subband adaptive training strategy to train our model to effectively
learn to generate coarse and detail wavelet coefficients. Last, we extend our
framework to be controlled by additional input conditions to enable it to
generate shapes from assorted modalities, e.g., single/multi-view images, point
clouds, and low-resolution voxels. In our extensive set of experiments, we
demonstrate various applications, such as unconditional generation, shape
completion, and conditional generation on a wide range of modalities. Our
approach not only surpasses the state of the art in delivering high-quality
results but also efficiently generates shapes within a few seconds, often
achieving this in just 2 seconds for most conditions.