Addestramento Rapido di Diffusion Transformer con Mascheramento Estremo per la Generazione di Nuvole di Punti 3D

Abstract

I Diffusion Transformer hanno recentemente dimostrato una notevole efficacia nella generazione di nuvole di punti 3D di alta qualità. Tuttavia, l'addestramento di modelli di diffusione basati su voxel per voxel 3D ad alta risoluzione rimane proibitivamente costoso a causa della complessità cubica degli operatori di attenzione, derivante dalla dimensione aggiuntiva dei voxel. Motivati dalla ridondanza intrinseca del 3D rispetto al 2D, proponiamo FastDiT-3D, un innovativo transformer di diffusione mascherato progettato per una generazione efficiente di nuvole di punti 3D, che riduce significativamente i costi di addestramento. Nello specifico, traiamo ispirazione dagli autoencoder mascherati per operare dinamicamente il processo di denoising su nuvole di punti voxelizzate mascherate. Proponiamo inoltre una nuova strategia di mascheratura voxel-aware per aggregare in modo adattivo le informazioni di sfondo/primo piano dalle nuvole di punti voxelizzate. Il nostro metodo raggiunge prestazioni all'avanguardia con un rapporto di mascheratura estremo di quasi il 99%. Inoltre, per migliorare la generazione 3D multi-categoria, introduciamo il Mixture-of-Expert (MoE) nel modello di diffusione 3D. Ogni categoria può apprendere un percorso di diffusione distinto con esperti diversi, alleviando i conflitti di gradiente. I risultati sperimentali sul dataset ShapeNet dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di nuvole di punti 3D ad alta fedeltà e diversità. Il nostro FastDiT-3D migliora le metriche di Accuratezza del Vicino più Vicino (1-Nearest Neighbor Accuracy) e Copertura (Coverage) nella generazione di nuvole di punti voxel a risoluzione 128, utilizzando solo il 6,5% del costo di addestramento originale.

English

Diffusion Transformers have recently shown remarkable effectiveness in generating high-quality 3D point clouds. However, training voxel-based diffusion models for high-resolution 3D voxels remains prohibitively expensive due to the cubic complexity of attention operators, which arises from the additional dimension of voxels. Motivated by the inherent redundancy of 3D compared to 2D, we propose FastDiT-3D, a novel masked diffusion transformer tailored for efficient 3D point cloud generation, which greatly reduces training costs. Specifically, we draw inspiration from masked autoencoders to dynamically operate the denoising process on masked voxelized point clouds. We also propose a novel voxel-aware masking strategy to adaptively aggregate background/foreground information from voxelized point clouds. Our method achieves state-of-the-art performance with an extreme masking ratio of nearly 99%. Moreover, to improve multi-category 3D generation, we introduce Mixture-of-Expert (MoE) in 3D diffusion model. Each category can learn a distinct diffusion path with different experts, relieving gradient conflict. Experimental results on the ShapeNet dataset demonstrate that our method achieves state-of-the-art high-fidelity and diverse 3D point cloud generation performance. Our FastDiT-3D improves 1-Nearest Neighbor Accuracy and Coverage metrics when generating 128-resolution voxel point clouds, using only 6.5% of the original training cost.

Addestramento Rapido di Diffusion Transformer con Mascheramento Estremo per la Generazione di Nuvole di Punti 3D

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

Abstract

Support