DiT-3D: Esplorazione dei Transformer a Diffusione Semplice per la Generazione di Forme 3D
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Autori: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Abstract
I recenti Diffusion Transformer (ad esempio, DiT) hanno dimostrato la loro potente efficacia nella generazione di immagini 2D di alta qualità. Tuttavia, rimane ancora da determinare se l'architettura Transformer performi altrettanto bene nella generazione di forme 3D, poiché i precedenti metodi di diffusione 3D hanno principalmente adottato l'architettura U-Net. Per colmare questa lacuna, proponiamo un nuovo Diffusion Transformer per la generazione di forme 3D, denominato DiT-3D, che può operare direttamente il processo di denoising su nuvole di punti voxelizzate utilizzando semplici Transformer. Rispetto agli approcci U-Net esistenti, il nostro DiT-3D è più scalabile in termini di dimensione del modello e produce generazioni di qualità molto superiore. Nello specifico, il DiT-3D adotta la filosofia di progettazione del DiT ma la modifica incorporando embedding posizionali e di patch 3D per aggregare in modo adattivo l'input da nuvole di punti voxelizzate. Per ridurre il costo computazionale dell'attenzione auto-attenzionale nella generazione di forme 3D, incorporiamo l'attenzione a finestra 3D nei blocchi Transformer, poiché l'aumentata lunghezza dei token 3D risultante dalla dimensione aggiuntiva dei voxel può portare a un'elevata computazione. Infine, vengono utilizzati strati lineari e di devoxelizzazione per prevedere le nuvole di punti denoised. Inoltre, la nostra architettura transformer supporta un efficiente fine-tuning da 2D a 3D, dove il checkpoint pre-addestrato DiT-2D su ImageNet può migliorare significativamente il DiT-3D su ShapeNet. I risultati sperimentali sul dataset ShapeNet dimostrano che il proposto DiT-3D raggiunge prestazioni all'avanguardia nella generazione di nuvole di punti 3D ad alta fedeltà e diversità. In particolare, il nostro DiT-3D riduce l'accuratezza del 1-Nearest Neighbor del metodo all'avanguardia di 4.59 e aumenta la metrica di Copertura di 3.51 quando valutato sulla Distanza di Chamfer.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.