DiT-3D: Exploración de Transformadores de Difusión Simples para la Generación de Formas 3D
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
July 4, 2023
Autores: Shentong Mo, Enze Xie, Ruihang Chu, Lewei Yao, Lanqing Hong, Matthias Nießner, Zhenguo Li
cs.AI
Resumen
Los Transformadores de Difusión recientes (por ejemplo, DiT) han demostrado su potente eficacia en la generación de imágenes 2D de alta calidad. Sin embargo, aún no está claro si la arquitectura Transformer funciona igual de bien en la generación de formas 3D, ya que los métodos anteriores de difusión 3D adoptaron principalmente la arquitectura U-Net. Para cerrar esta brecha, proponemos un nuevo Transformador de Difusión para la generación de formas 3D, denominado DiT-3D, que puede operar directamente el proceso de eliminación de ruido en nubes de puntos voxelizadas utilizando Transformers estándar. En comparación con los enfoques U-Net existentes, nuestro DiT-3D es más escalable en tamaño de modelo y produce generaciones de mucha mayor calidad. Específicamente, el DiT-3D adopta la filosofía de diseño de DiT pero lo modifica incorporando embeddings posicionales y de parches 3D para agregar de manera adaptativa la entrada de nubes de puntos voxelizadas. Para reducir el costo computacional de la autoatención en la generación de formas 3D, incorporamos la atención por ventanas 3D en los bloques Transformer, ya que la longitud adicional de tokens 3D resultante de la dimensión adicional de los vóxeles puede llevar a un alto costo computacional. Finalmente, se utilizan capas lineales y de devoxelización para predecir las nubes de puntos sin ruido. Además, nuestra arquitectura Transformer permite un ajuste fino eficiente de 2D a 3D, donde el punto de control preentrenado DiT-2D en ImageNet puede mejorar significativamente el DiT-3D en ShapeNet. Los resultados experimentales en el conjunto de datos ShapeNet demuestran que el DiT-3D propuesto alcanza un rendimiento de vanguardia en la generación de nubes de puntos 3D de alta fidelidad y diversidad. En particular, nuestro DiT-3D reduce la precisión del Vecino Más Cercano (1-NN) del método más avanzado en 4.59 y aumenta la métrica de Cobertura en 3.51 cuando se evalúa con la Distancia de Chamfer.
English
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful
effectiveness in generating high-quality 2D images. However, it is still being
determined whether the Transformer architecture performs equally well in 3D
shape generation, as previous 3D diffusion methods mostly adopted the U-Net
architecture. To bridge this gap, we propose a novel Diffusion Transformer for
3D shape generation, namely DiT-3D, which can directly operate the denoising
process on voxelized point clouds using plain Transformers. Compared to
existing U-Net approaches, our DiT-3D is more scalable in model size and
produces much higher quality generations. Specifically, the DiT-3D adopts the
design philosophy of DiT but modifies it by incorporating 3D positional and
patch embeddings to adaptively aggregate input from voxelized point clouds. To
reduce the computational cost of self-attention in 3D shape generation, we
incorporate 3D window attention into Transformer blocks, as the increased 3D
token length resulting from the additional dimension of voxels can lead to high
computation. Finally, linear and devoxelization layers are used to predict the
denoised point clouds. In addition, our transformer architecture supports
efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on
ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on
the ShapeNet dataset demonstrate that the proposed DiT-3D achieves
state-of-the-art performance in high-fidelity and diverse 3D point cloud
generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy
of the state-of-the-art method by 4.59 and increases the Coverage metric by
3.51 when evaluated on Chamfer Distance.