DiT-3D: 3D 형태 생성을 위한 일반적인 디퓨전 트랜스포머 탐구
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
저자: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
초록
최근 Diffusion Transformer(예: DiT)는 고품질 2D 이미지 생성에서 강력한 효과를 입증했습니다. 그러나 Transformer 아키텍처가 3D 형태 생성에서도 동일한 성능을 발휘하는지는 여전히 불분명합니다. 이전의 3D diffusion 방법들은 대부분 U-Net 아키텍처를 채택했기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 3D 형태 생성을 위한 새로운 Diffusion Transformer인 DiT-3D를 제안합니다. DiT-3D는 일반적인 Transformer를 사용하여 복셀화된 포인트 클라우드에서 직접 노이즈 제거 프로세스를 수행할 수 있습니다. 기존의 U-Net 접근 방식과 비교하여, 우리의 DiT-3D는 모델 크기 측면에서 더 확장 가능하며 훨씬 더 높은 품질의 생성물을 만들어냅니다. 구체적으로, DiT-3D는 DiT의 설계 철학을 채택하지만 3D 위치 및 패치 임베딩을 통합하여 복셀화된 포인트 클라우드의 입력을 적응적으로 집계하도록 수정했습니다. 3D 형태 생성에서 self-attention의 계산 비용을 줄이기 위해, 우리는 Transformer 블록에 3D 윈도우 어텐션을 통합했습니다. 이는 복셀의 추가 차원으로 인해 증가한 3D 토큰 길이가 높은 계산량을 초래할 수 있기 때문입니다. 마지막으로, 선형 및 디복셀화 레이어를 사용하여 노이즈가 제거된 포인트 클라우드를 예측합니다. 또한, 우리의 Transformer 아키텍처는 2D에서 3D로의 효율적인 미세 조정을 지원하며, ImageNet에서 사전 학습된 DiT-2D 체크포인트가 ShapeNet에서 DiT-3D의 성능을 크게 향상시킬 수 있습니다. ShapeNet 데이터셋에 대한 실험 결과는 제안된 DiT-3D가 고화질 및 다양한 3D 포인트 클라우드 생성에서 최첨단 성능을 달성함을 보여줍니다. 특히, 우리의 DiT-3D는 Chamfer Distance로 평가했을 때 최첨단 방법의 1-Nearest Neighbor Accuracy를 4.59 감소시키고 Coverage 지표를 3.51 증가시켰습니다.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.