Direct3D-S2: Generazione 3D su scala gigante semplificata con attenzione spaziale sparsa
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
May 23, 2025
Autori: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
cs.AI
Abstract
La generazione di forme 3D ad alta risoluzione utilizzando rappresentazioni volumetriche come le Funzioni di Distanza con Segno presenta sfide computazionali e di memoria significative. Introduciamo Direct3D S2, un framework scalabile per la generazione 3D basato su volumi sparsi che raggiunge una qualità di output superiore con costi di addestramento drasticamente ridotti. La nostra innovazione chiave è il meccanismo di Spatial Sparse Attention, che migliora notevolmente l'efficienza dei calcoli del Diffusion Transformer su dati volumetrici sparsi. SSA consente al modello di elaborare efficacemente grandi insiemi di token all'interno di volumi sparsi, riducendo significativamente il sovraccarico computazionale e ottenendo un'accelerazione di 3.9x nel passaggio in avanti e di 9.6x nel passaggio all'indietro. Il nostro framework include anche un autoencoder variazionale che mantiene un formato volumetrico sparso coerente attraverso le fasi di input, latente e output. Rispetto ai metodi precedenti con rappresentazioni eterogenee nei VAE 3D, questo design unificato migliora significativamente l'efficienza e la stabilità dell'addestramento. Il nostro modello è addestrato su dataset pubblicamente disponibili, e gli esperimenti dimostrano che Direct3D S2 non solo supera i metodi all'avanguardia in termini di qualità ed efficienza di generazione, ma consente anche l'addestramento a una risoluzione di 1024 utilizzando solo 8 GPU, un compito che tipicamente richiederebbe almeno 32 GPU per rappresentazioni volumetriche a una risoluzione di 256, rendendo così la generazione 3D su scala gigante sia pratica che accessibile. Pagina del progetto: https://nju3dv.github.io/projects/Direct3D-S2/.
English
Generating high resolution 3D shapes using volumetric representations such as
Signed Distance Functions presents substantial computational and memory
challenges. We introduce Direct3D S2, a scalable 3D generation framework based
on sparse volumes that achieves superior output quality with dramatically
reduced training costs. Our key innovation is the Spatial Sparse Attention
mechanism, which greatly enhances the efficiency of Diffusion Transformer
computations on sparse volumetric data. SSA allows the model to effectively
process large token sets within sparse volumes, significantly reducing
computational overhead and achieving a 3.9x speedup in the forward pass and a
9.6x speedup in the backward pass. Our framework also includes a variational
autoencoder that maintains a consistent sparse volumetric format across input,
latent, and output stages. Compared to previous methods with heterogeneous
representations in 3D VAE, this unified design significantly improves training
efficiency and stability. Our model is trained on public available datasets,
and experiments demonstrate that Direct3D S2 not only surpasses
state-of-the-art methods in generation quality and efficiency, but also enables
training at 1024 resolution using only 8 GPUs, a task typically requiring at
least 32 GPUs for volumetric representations at 256 resolution, thus making
gigascale 3D generation both practical and accessible. Project page:
https://nju3dv.github.io/projects/Direct3D-S2/.