DiT-3D: 3D形状生成のためのシンプルなDiffusion Transformerの探求
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
著者: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
要旨
最近のDiffusion Transformer(例:DiT)は、高品質な2D画像生成においてその強力な効果を実証しています。しかし、Transformerアーキテクチャが3D形状生成においても同等の性能を発揮するかどうかはまだ不明です。なぜなら、これまでの3D拡散法は主にU-Netアーキテクチャを採用していたからです。このギャップを埋めるため、我々は3D形状生成のための新たなDiffusion Transformer、すなわちDiT-3Dを提案します。DiT-3Dは、プレーンなTransformerを使用してボクセル化された点群のノイズ除去プロセスを直接操作することができます。既存のU-Netアプローチと比較して、我々のDiT-3Dはモデルサイズにおいてよりスケーラブルであり、はるかに高品質な生成を実現します。具体的には、DiT-3DはDiTの設計哲学を採用していますが、3D位置埋め込みとパッチ埋め込みを組み込むことで、ボクセル化された点群からの入力を適応的に集約するように変更しています。3D形状生成におけるセルフアテンションの計算コストを削減するため、我々はTransformerブロックに3Dウィンドウアテンションを組み込みました。これは、ボクセルの追加次元による3Dトークン長の増加が高い計算量を引き起こす可能性があるためです。最後に、線形層とデボクセル化層を使用してノイズ除去された点群を予測します。さらに、我々のTransformerアーキテクチャは2Dから3Dへの効率的なファインチューニングをサポートしており、ImageNetで事前学習されたDiT-2DチェックポイントがShapeNet上のDiT-3Dを大幅に改善することができます。ShapeNetデータセットでの実験結果は、提案されたDiT-3Dが高忠実度かつ多様な3D点群生成において最先端の性能を達成することを示しています。特に、我々のDiT-3Dは、Chamfer Distanceで評価した場合、最先端手法の1-Nearest Neighbor Accuracyを4.59減少させ、Coverageメトリックを3.51増加させました。
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.