Direct3D-S2 : Génération 3D à l'échelle du gigascale simplifiée grâce à l'attention spatiale parcimonieuse
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
May 23, 2025
Auteurs: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
cs.AI
Résumé
La génération de formes 3D haute résolution à l'aide de représentations volumétriques telles que les fonctions de distance signée (SDF) pose des défis substantiels en termes de calcul et de mémoire. Nous présentons Direct3D S2, un cadre de génération 3D évolutif basé sur des volumes clairsemés, qui atteint une qualité de sortie supérieure tout en réduisant considérablement les coûts d'entraînement. Notre innovation clé est le mécanisme d'attention spatiale clairsemée (Spatial Sparse Attention, SSA), qui améliore grandement l'efficacité des calculs des Transformers de Diffusion sur des données volumétriques clairsemées. Le SSA permet au modèle de traiter efficacement de grands ensembles de tokens au sein de volumes clairsemés, réduisant ainsi significativement la surcharge computationnelle et obtenant une accélération de 3,9x pour la passe avant et de 9,6x pour la passe arrière. Notre cadre inclut également un autoencodeur variationnel qui maintient un format volumétrique clairsemé cohérent aux étapes d'entrée, latente et de sortie. Par rapport aux méthodes précédentes utilisant des représentations hétérogènes dans les VAE 3D, cette conception unifiée améliore significativement l'efficacité et la stabilité de l'entraînement. Notre modèle est entraîné sur des ensembles de données publiquement disponibles, et les expériences démontrent que Direct3D S2 surpasse non seulement les méthodes de pointe en termes de qualité et d'efficacité de génération, mais permet également un entraînement à une résolution de 1024 en utilisant seulement 8 GPU, une tâche qui nécessiterait typiquement au moins 32 GPU pour des représentations volumétriques à une résolution de 256, rendant ainsi la génération 3D à l'échelle du gigascale à la fois pratique et accessible. Page du projet : https://nju3dv.github.io/projects/Direct3D-S2/.
English
Generating high resolution 3D shapes using volumetric representations such as
Signed Distance Functions presents substantial computational and memory
challenges. We introduce Direct3D S2, a scalable 3D generation framework based
on sparse volumes that achieves superior output quality with dramatically
reduced training costs. Our key innovation is the Spatial Sparse Attention
mechanism, which greatly enhances the efficiency of Diffusion Transformer
computations on sparse volumetric data. SSA allows the model to effectively
process large token sets within sparse volumes, significantly reducing
computational overhead and achieving a 3.9x speedup in the forward pass and a
9.6x speedup in the backward pass. Our framework also includes a variational
autoencoder that maintains a consistent sparse volumetric format across input,
latent, and output stages. Compared to previous methods with heterogeneous
representations in 3D VAE, this unified design significantly improves training
efficiency and stability. Our model is trained on public available datasets,
and experiments demonstrate that Direct3D S2 not only surpasses
state-of-the-art methods in generation quality and efficiency, but also enables
training at 1024 resolution using only 8 GPUs, a task typically requiring at
least 32 GPUs for volumetric representations at 256 resolution, thus making
gigascale 3D generation both practical and accessible. Project page:
https://nju3dv.github.io/projects/Direct3D-S2/.Summary
AI-Generated Summary