제어 가능한 3D 형태 생성을 위한 지역적 주의 기반 SDF 확산
Locally Attentional SDF Diffusion for Controllable 3D Shape Generation
May 8, 2023
저자: Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum
cs.AI
초록
최근 3D 생성 신경망의 급속한 발전으로 3D 형태 생성이 크게 개선되었지만, 일반 사용자가 3D 형태를 생성하고 생성된 형태의 지역적 기하학을 제어하는 것은 여전히 불편한 상황입니다. 이러한 문제를 해결하기 위해, 우리는 2D 스케치 이미지 입력을 통해 그럴듯한 3D 형태를 모델링하기 위한 확산 기반 3D 생성 프레임워크인 지역적 주의 기반 SDF 확산(locally attentional SDF diffusion)을 제안합니다. 우리의 방법은 두 단계의 확산 모델로 구성됩니다. 첫 번째 단계는 점유 확산(occupancy-diffusion)으로, 저해상도 점유 필드를 생성하여 형태의 외곽을 근사화하는 것을 목표로 합니다. 두 번째 단계는 SDF 확산(SDF-diffusion)으로, 첫 번째 단계에서 결정된 점유된 복셀 내에서 고해상도의 부호 있는 거리 필드(signed distance field)를 합성하여 세밀한 기하학을 추출합니다. 우리의 모델은 이미지 조건화된 형태 생성을 위한 새로운 시각 인식 지역적 주의 메커니즘에 의해 강화되어, 2D 이미지 패치 특징을 활용하여 3D 복셀 특징 학습을 안내함으로써 지역적 제어 가능성과 모델의 일반화 능력을 크게 향상시킵니다. 스케치 조건화 및 카테고리 조건화 3D 형태 생성 작업에서의 광범위한 실험을 통해, 우리는 우리의 방법이 그럴듯하고 다양한 3D 형태를 제공할 뿐만 아니라 기존 작업에 비해 우수한 제어 가능성과 일반화 능력을 가지고 있음을 검증하고 입증합니다. 우리의 코드와 훈련된 모델은 https://zhengxinyang.github.io/projects/LAS-Diffusion.html에서 확인할 수 있습니다.
English
Although the recent rapid evolution of 3D generative neural networks greatly
improves 3D shape generation, it is still not convenient for ordinary users to
create 3D shapes and control the local geometry of generated shapes. To address
these challenges, we propose a diffusion-based 3D generation framework --
locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch
image input. Our method is built on a two-stage diffusion model. The first
stage, named occupancy-diffusion, aims to generate a low-resolution occupancy
field to approximate the shape shell. The second stage, named SDF-diffusion,
synthesizes a high-resolution signed distance field within the occupied voxels
determined by the first stage to extract fine geometry. Our model is empowered
by a novel view-aware local attention mechanism for image-conditioned shape
generation, which takes advantage of 2D image patch features to guide 3D voxel
feature learning, greatly improving local controllability and model
generalizability. Through extensive experiments in sketch-conditioned and
category-conditioned 3D shape generation tasks, we validate and demonstrate the
ability of our method to provide plausible and diverse 3D shapes, as well as
its superior controllability and generalizability over existing work. Our code
and trained models are available at
https://zhengxinyang.github.io/projects/LAS-Diffusion.html