Direct3D-S2: Generazione 3D su scala gigante semplificata con attenzione spaziale sparsa

Abstract

La generazione di forme 3D ad alta risoluzione utilizzando rappresentazioni volumetriche come le Funzioni di Distanza con Segno presenta sfide computazionali e di memoria significative. Introduciamo Direct3D S2, un framework scalabile per la generazione 3D basato su volumi sparsi che raggiunge una qualità di output superiore con costi di addestramento drasticamente ridotti. La nostra innovazione chiave è il meccanismo di Spatial Sparse Attention, che migliora notevolmente l'efficienza dei calcoli del Diffusion Transformer su dati volumetrici sparsi. SSA consente al modello di elaborare efficacemente grandi insiemi di token all'interno di volumi sparsi, riducendo significativamente il sovraccarico computazionale e ottenendo un'accelerazione di 3.9x nel passaggio in avanti e di 9.6x nel passaggio all'indietro. Il nostro framework include anche un autoencoder variazionale che mantiene un formato volumetrico sparso coerente attraverso le fasi di input, latente e output. Rispetto ai metodi precedenti con rappresentazioni eterogenee nei VAE 3D, questo design unificato migliora significativamente l'efficienza e la stabilità dell'addestramento. Il nostro modello è addestrato su dataset pubblicamente disponibili, e gli esperimenti dimostrano che Direct3D S2 non solo supera i metodi all'avanguardia in termini di qualità ed efficienza di generazione, ma consente anche l'addestramento a una risoluzione di 1024 utilizzando solo 8 GPU, un compito che tipicamente richiederebbe almeno 32 GPU per rappresentazioni volumetriche a una risoluzione di 256, rendendo così la generazione 3D su scala gigante sia pratica che accessibile. Pagina del progetto: https://nju3dv.github.io/projects/Direct3D-S2/.

English

Generating high resolution 3D shapes using volumetric representations such as Signed Distance Functions presents substantial computational and memory challenges. We introduce Direct3D S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention mechanism, which greatly enhances the efficiency of Diffusion Transformer computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, significantly reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://nju3dv.github.io/projects/Direct3D-S2/.

Direct3D-S2: Generazione 3D su scala gigante semplificata con attenzione spaziale sparsa

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

Abstract

Support