DiT-3D: Onderzoek naar Eenvoudige Diffusie Transformers voor 3D-vormgeneratie
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Auteurs: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Samenvatting
Recente Diffusion Transformers (bijv. DiT) hebben hun krachtige effectiviteit aangetoond bij het genereren van hoogwaardige 2D-afbeeldingen. Het is echter nog onduidelijk of de Transformer-architectuur even goed presteert bij 3D-vormgeneratie, aangezien eerdere 3D-diffusiemethoden voornamelijk de U-Net-architectuur gebruikten. Om deze kloof te overbruggen, stellen we een nieuwe Diffusion Transformer voor 3D-vormgeneratie voor, genaamd DiT-3D, die het denoisingsproces direct kan uitvoeren op gevoxeliseerde puntenwolken met behulp van standaard Transformers. In vergelijking met bestaande U-Net-benaderingen is onze DiT-3D beter schaalbaar in modelgrootte en produceert het veel hogere kwaliteit generaties. Specifiek neemt de DiT-3D het ontwerpprincipe van DiT over, maar past het aan door 3D-positie- en patchembeddings te integreren om invoer van gevoxeliseerde puntenwolken adaptief te aggregeren. Om de rekenkosten van zelf-attentie in 3D-vormgeneratie te verminderen, integreren we 3D-venster-attentie in Transformer-blokken, aangezien de toegenomen 3D-tokenlengte als gevolg van de extra dimensie van voxels tot hoge rekencosten kan leiden. Ten slotte worden lineaire en devoxeliseringslagen gebruikt om de gedenoiseerde puntenwolken te voorspellen. Daarnaast ondersteunt onze transformer-architectuur efficiënte fine-tuning van 2D naar 3D, waarbij het vooraf getrainde DiT-2D-checkpoint op ImageNet de DiT-3D aanzienlijk kan verbeteren op ShapeNet. Experimentele resultaten op de ShapeNet-dataset tonen aan dat de voorgestelde DiT-3D state-of-the-art prestaties bereikt in hoogwaardige en diverse 3D-puntenwolkengeneratie. In het bijzonder verlaagt onze DiT-3D de 1-Nearest Neighbor Accuracy van de state-of-the-art methode met 4,59 en verhoogt het de Coverage-metric met 3,51 bij evaluatie op Chamfer Distance.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.