ChatPaper.aiChatPaper

Direct3D-S2: Generación 3D a escala gigante simplificada con atención espacial dispersa

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

May 23, 2025
Autores: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
cs.AI

Resumen

La generación de formas 3D de alta resolución utilizando representaciones volumétricas como las Funciones de Distancia con Signo presenta desafíos computacionales y de memoria sustanciales. Presentamos Direct3D S2, un marco escalable de generación 3D basado en volúmenes dispersos que logra una calidad de salida superior con costos de entrenamiento drásticamente reducidos. Nuestra innovación clave es el mecanismo de Atención Espacial Dispersa (Spatial Sparse Attention, SSA), que mejora significativamente la eficiencia de los cálculos del Transformer de Difusión en datos volumétricos dispersos. El SSA permite que el modelo procese de manera efectiva grandes conjuntos de tokens dentro de volúmenes dispersos, reduciendo considerablemente la sobrecarga computacional y logrando una aceleración de 3.9x en el paso hacia adelante y de 9.6x en el paso hacia atrás. Nuestro marco también incluye un autoencoder variacional que mantiene un formato volumétrico disperso consistente en las etapas de entrada, latente y salida. En comparación con métodos anteriores que utilizaban representaciones heterogéneas en VAE 3D, este diseño unificado mejora significativamente la eficiencia y estabilidad del entrenamiento. Nuestro modelo se entrena con conjuntos de datos disponibles públicamente, y los experimentos demuestran que Direct3D S2 no solo supera a los métodos más avanzados en calidad y eficiencia de generación, sino que también permite el entrenamiento en resolución 1024 utilizando solo 8 GPUs, una tarea que normalmente requeriría al menos 32 GPUs para representaciones volumétricas en resolución 256, haciendo así que la generación 3D a escala gigante sea tanto práctica como accesible. Página del proyecto: https://nju3dv.github.io/projects/Direct3D-S2/.
English
Generating high resolution 3D shapes using volumetric representations such as Signed Distance Functions presents substantial computational and memory challenges. We introduce Direct3D S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention mechanism, which greatly enhances the efficiency of Diffusion Transformer computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, significantly reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://nju3dv.github.io/projects/Direct3D-S2/.

Summary

AI-Generated Summary

PDF162May 26, 2025