DiT-3D: Explorando Transformadores de Difusão Simples para Geração de Formas 3D
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Autores: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Resumo
Os recentes Transformers de Difusão (por exemplo, DiT) demonstraram sua poderosa eficácia na geração de imagens 2D de alta qualidade. No entanto, ainda não está claro se a arquitetura Transformer desempenha-se igualmente bem na geração de formas 3D, uma vez que os métodos anteriores de difusão 3D adotaram principalmente a arquitetura U-Net. Para preencher essa lacuna, propomos um novo Transformer de Difusão para geração de formas 3D, denominado DiT-3D, que pode operar diretamente o processo de remoção de ruído em nuvens de pontos voxelizadas usando Transformers simples. Em comparação com as abordagens U-Net existentes, nosso DiT-3D é mais escalável em tamanho de modelo e produz gerações de qualidade muito superior. Especificamente, o DiT-3D adota a filosofia de design do DiT, mas o modifica incorporando embeddings posicionais e de patches 3D para agregar adaptativamente a entrada de nuvens de pontos voxelizadas. Para reduzir o custo computacional da auto-atenção na geração de formas 3D, incorporamos a atenção por janela 3D nos blocos Transformer, já que o aumento no comprimento dos tokens 3D resultante da dimensão adicional dos voxels pode levar a um alto custo computacional. Finalmente, camadas lineares e de devoxelização são usadas para prever as nuvens de pontos sem ruído. Além disso, nossa arquitetura Transformer suporta ajuste fino eficiente de 2D para 3D, onde o checkpoint pré-treinado do DiT-2D no ImageNet pode melhorar significativamente o DiT-3D no ShapeNet. Resultados experimentais no conjunto de dados ShapeNet demonstram que o DiT-3D proposto alcança desempenho de ponta na geração de nuvens de pontos 3D de alta fidelidade e diversidade. Em particular, nosso DiT-3D reduz a Acurácia do Vizinho Mais Próximo (1-Nearest Neighbor Accuracy) do método estado da arte em 4,59 e aumenta a métrica de Cobertura (Coverage) em 3,51 quando avaliado na Distância de Chamfer.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.