Direct3D-S2: Generación 3D a escala gigante simplificada con atención espacial dispersa
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention
May 23, 2025
Autores: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
cs.AI
Resumen
La generación de formas 3D de alta resolución utilizando representaciones volumétricas como las Funciones de Distancia con Signo presenta desafíos computacionales y de memoria sustanciales. Presentamos Direct3D S2, un marco escalable de generación 3D basado en volúmenes dispersos que logra una calidad de salida superior con costos de entrenamiento drásticamente reducidos. Nuestra innovación clave es el mecanismo de Atención Espacial Dispersa (Spatial Sparse Attention, SSA), que mejora significativamente la eficiencia de los cálculos del Transformer de Difusión en datos volumétricos dispersos. El SSA permite que el modelo procese de manera efectiva grandes conjuntos de tokens dentro de volúmenes dispersos, reduciendo considerablemente la sobrecarga computacional y logrando una aceleración de 3.9x en el paso hacia adelante y de 9.6x en el paso hacia atrás. Nuestro marco también incluye un autoencoder variacional que mantiene un formato volumétrico disperso consistente en las etapas de entrada, latente y salida. En comparación con métodos anteriores que utilizaban representaciones heterogéneas en VAE 3D, este diseño unificado mejora significativamente la eficiencia y estabilidad del entrenamiento. Nuestro modelo se entrena con conjuntos de datos disponibles públicamente, y los experimentos demuestran que Direct3D S2 no solo supera a los métodos más avanzados en calidad y eficiencia de generación, sino que también permite el entrenamiento en resolución 1024 utilizando solo 8 GPUs, una tarea que normalmente requeriría al menos 32 GPUs para representaciones volumétricas en resolución 256, haciendo así que la generación 3D a escala gigante sea tanto práctica como accesible. Página del proyecto: https://nju3dv.github.io/projects/Direct3D-S2/.
English
Generating high resolution 3D shapes using volumetric representations such as
Signed Distance Functions presents substantial computational and memory
challenges. We introduce Direct3D S2, a scalable 3D generation framework based
on sparse volumes that achieves superior output quality with dramatically
reduced training costs. Our key innovation is the Spatial Sparse Attention
mechanism, which greatly enhances the efficiency of Diffusion Transformer
computations on sparse volumetric data. SSA allows the model to effectively
process large token sets within sparse volumes, significantly reducing
computational overhead and achieving a 3.9x speedup in the forward pass and a
9.6x speedup in the backward pass. Our framework also includes a variational
autoencoder that maintains a consistent sparse volumetric format across input,
latent, and output stages. Compared to previous methods with heterogeneous
representations in 3D VAE, this unified design significantly improves training
efficiency and stability. Our model is trained on public available datasets,
and experiments demonstrate that Direct3D S2 not only surpasses
state-of-the-art methods in generation quality and efficiency, but also enables
training at 1024 resolution using only 8 GPUs, a task typically requiring at
least 32 GPUs for volumetric representations at 256 resolution, thus making
gigascale 3D generation both practical and accessible. Project page:
https://nju3dv.github.io/projects/Direct3D-S2/.Summary
AI-Generated Summary