Direct3D-S2: Geração em Escala Gigante de 3D Facilitada com Atenção Espacial Esparsa

Resumo

Gerar formas 3D de alta resolução usando representações volumétricas, como Funções de Distância Assinada, apresenta desafios computacionais e de memória substanciais. Apresentamos o Direct3D S2, uma estrutura escalável de geração 3D baseada em volumes esparsos que alcança qualidade superior de saída com custos de treinamento drasticamente reduzidos. Nossa principal inovação é o mecanismo de Atenção Espacial Esparsa (Spatial Sparse Attention - SSA), que aumenta significativamente a eficiência dos cálculos do Transformer de Difusão em dados volumétricos esparsos. O SSA permite que o modelo processe efetivamente grandes conjuntos de tokens dentro de volumes esparsos, reduzindo consideravelmente a sobrecarga computacional e alcançando um ganho de velocidade de 3,9x na passagem direta e 9,6x na passagem reversa. Nossa estrutura também inclui um autoencoder variacional que mantém um formato volumétrico esparso consistente nas etapas de entrada, latente e saída. Em comparação com métodos anteriores que utilizam representações heterogêneas em VAEs 3D, este design unificado melhora significativamente a eficiência e a estabilidade do treinamento. Nosso modelo foi treinado em conjuntos de dados publicamente disponíveis, e os experimentos demonstram que o Direct3D S2 não apenas supera os métodos state-of-the-art em qualidade e eficiência de geração, mas também permite o treinamento em resolução 1024 usando apenas 8 GPUs, uma tarefa que normalmente exigiria pelo menos 32 GPUs para representações volumétricas em resolução 256, tornando a geração 3D em escala gigante tanto prática quanto acessível. Página do projeto: https://nju3dv.github.io/projects/Direct3D-S2/.

English

Generating high resolution 3D shapes using volumetric representations such as Signed Distance Functions presents substantial computational and memory challenges. We introduce Direct3D S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention mechanism, which greatly enhances the efficiency of Diffusion Transformer computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, significantly reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://nju3dv.github.io/projects/Direct3D-S2/.

Direct3D-S2: Geração em Escala Gigante de 3D Facilitada com Atenção Espacial Esparsa

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

Resumo

Support