DiT-3D : Exploration des Transformeurs de Diffusion Simples pour la Génération de Formes 3D
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Auteurs: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Résumé
Les Transformers de Diffusion récents (par exemple, DiT) ont démontré leur puissante efficacité dans la génération d'images 2D de haute qualité. Cependant, il reste à déterminer si l'architecture Transformer performe aussi bien dans la génération de formes 3D, car les méthodes de diffusion 3D précédentes adoptaient principalement l'architecture U-Net. Pour combler cette lacune, nous proposons un nouveau Transformer de Diffusion pour la génération de formes 3D, nommé DiT-3D, qui peut directement opérer le processus de débrui sur des nuages de points voxélisés en utilisant des Transformers standards. Comparé aux approches U-Net existantes, notre DiT-3D est plus évolutif en termes de taille de modèle et produit des générations de bien meilleure qualité. Plus précisément, le DiT-3D adopte la philosophie de conception du DiT mais la modifie en incorporant des embeddings positionnels et de patchs 3D pour agréger de manière adaptative les entrées provenant de nuages de points voxélisés. Pour réduire le coût computationnel de l'auto-attention dans la génération de formes 3D, nous intégrons une attention par fenêtre 3D dans les blocs Transformer, car la longueur accrue des tokens 3D résultant de la dimension supplémentaire des voxels peut entraîner une forte computation. Enfin, des couches linéaires et de dévoxélisation sont utilisées pour prédire les nuages de points débruités. De plus, notre architecture Transformer supporte un réglage fin efficace du 2D au 3D, où le checkpoint pré-entraîné DiT-2D sur ImageNet peut significativement améliorer le DiT-3D sur ShapeNet. Les résultats expérimentaux sur le jeu de données ShapeNet démontrent que le DiT-3D proposé atteint des performances de pointe dans la génération de nuages de points 3D haute fidélité et diversifiés. En particulier, notre DiT-3D réduit l'exactitude du 1-Nearest Neighbor de la méthode de pointe de 4,59 et augmente la métrique de Couverture de 3,51 lors de l'évaluation sur la Distance de Chamfer.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.