DiT-3D: Untersuchung einfacher Diffusions-Transformer für die 3D-Formgenerierung
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Autoren: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Zusammenfassung
Kürzlich entwickelte Diffusion Transformers (z.B. DiT) haben ihre beeindruckende Effektivität bei der Erzeugung hochwertiger 2D-Bilder unter Beweis gestellt. Es ist jedoch noch unklar, ob die Transformer-Architektur bei der 3D-Formgenerierung ebenso gut abschneidet, da bisherige 3D-Diffusionsmethoden überwiegend die U-Net-Architektur verwendeten. Um diese Lücke zu schließen, schlagen wir einen neuartigen Diffusion Transformer für die 3D-Formgenerierung vor, genannt DiT-3D, der den Denoising-Prozess direkt auf voxelisierten Punktwolken mithilfe einfacher Transformer durchführen kann. Im Vergleich zu bestehenden U-Net-Ansätzen ist unser DiT-3D skalierbarer in der Modellgröße und erzeugt qualitativ hochwertigere Ergebnisse. Konkret übernimmt der DiT-3D das Designkonzept von DiT, modifiziert es jedoch durch die Einbindung von 3D-Positions- und Patch-Embeddings, um die Eingaben von voxelisierten Punktwolken adaptiv zu aggregieren. Um die Rechenkosten der Selbstaufmerksamkeit bei der 3D-Formgenerierung zu reduzieren, integrieren wir 3D-Fensteraufmerksamkeit in die Transformer-Blöcke, da die erhöhte 3D-Token-Länge aufgrund der zusätzlichen Dimension der Voxel zu hohem Rechenaufwand führen kann. Schließlich werden lineare und Devoxelisierungs-Schichten verwendet, um die denoisierten Punktwolken vorherzusagen. Darüber hinaus unterstützt unsere Transformer-Architektur ein effizientes Fine-Tuning von 2D auf 3D, wobei der vortrainierte DiT-2D-Checkpoint auf ImageNet die Leistung von DiT-3D auf ShapeNet erheblich verbessern kann. Experimentelle Ergebnisse auf dem ShapeNet-Datensatz zeigen, dass der vorgeschlagene DiT-3D Spitzenleistungen bei der Erzeugung hochauflösender und vielfältiger 3D-Punktwolken erzielt. Insbesondere reduziert unser DiT-3D die 1-Nearest Neighbor Accuracy der bisher besten Methode um 4,59 und erhöht das Coverage-Metrik um 3,51 bei der Bewertung anhand der Chamfer-Distanz.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.