DiT-3D: Explorando Transformadores de Difusão Simples para Geração de Formas 3D

Resumo

Os recentes Transformers de Difusão (por exemplo, DiT) demonstraram sua poderosa eficácia na geração de imagens 2D de alta qualidade. No entanto, ainda não está claro se a arquitetura Transformer desempenha-se igualmente bem na geração de formas 3D, uma vez que os métodos anteriores de difusão 3D adotaram principalmente a arquitetura U-Net. Para preencher essa lacuna, propomos um novo Transformer de Difusão para geração de formas 3D, denominado DiT-3D, que pode operar diretamente o processo de remoção de ruído em nuvens de pontos voxelizadas usando Transformers simples. Em comparação com as abordagens U-Net existentes, nosso DiT-3D é mais escalável em tamanho de modelo e produz gerações de qualidade muito superior. Especificamente, o DiT-3D adota a filosofia de design do DiT, mas o modifica incorporando embeddings posicionais e de patches 3D para agregar adaptativamente a entrada de nuvens de pontos voxelizadas. Para reduzir o custo computacional da auto-atenção na geração de formas 3D, incorporamos a atenção por janela 3D nos blocos Transformer, já que o aumento no comprimento dos tokens 3D resultante da dimensão adicional dos voxels pode levar a um alto custo computacional. Finalmente, camadas lineares e de devoxelização são usadas para prever as nuvens de pontos sem ruído. Além disso, nossa arquitetura Transformer suporta ajuste fino eficiente de 2D para 3D, onde o checkpoint pré-treinado do DiT-2D no ImageNet pode melhorar significativamente o DiT-3D no ShapeNet. Resultados experimentais no conjunto de dados ShapeNet demonstram que o DiT-3D proposto alcança desempenho de ponta na geração de nuvens de pontos 3D de alta fidelidade e diversidade. Em particular, nosso DiT-3D reduz a Acurácia do Vizinho Mais Próximo (1-Nearest Neighbor Accuracy) do método estado da arte em 4,59 e aumenta a métrica de Cobertura (Coverage) em 3,51 quando avaliado na Distância de Chamfer.

English

Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful effectiveness in generating high-quality 2D images. However, it is still being determined whether the Transformer architecture performs equally well in 3D shape generation, as previous 3D diffusion methods mostly adopted the U-Net architecture. To bridge this gap, we propose a novel Diffusion Transformer for 3D shape generation, namely DiT-3D, which can directly operate the denoising process on voxelized point clouds using plain Transformers. Compared to existing U-Net approaches, our DiT-3D is more scalable in model size and produces much higher quality generations. Specifically, the DiT-3D adopts the design philosophy of DiT but modifies it by incorporating 3D positional and patch embeddings to adaptively aggregate input from voxelized point clouds. To reduce the computational cost of self-attention in 3D shape generation, we incorporate 3D window attention into Transformer blocks, as the increased 3D token length resulting from the additional dimension of voxels can lead to high computation. Finally, linear and devoxelization layers are used to predict the denoised point clouds. In addition, our transformer architecture supports efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on the ShapeNet dataset demonstrate that the proposed DiT-3D achieves state-of-the-art performance in high-fidelity and diverse 3D point cloud generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy of the state-of-the-art method by 4.59 and increases the Coverage metric by 3.51 when evaluated on Chamfer Distance.

DiT-3D: Explorando Transformadores de Difusão Simples para Geração de Formas 3D

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

Resumo

Support