ChatPaper.aiChatPaper

Direct3D-S2: Gigaskalige 3D-Generierung vereinfacht durch räumlich spärliche Aufmerksamkeit

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

May 23, 2025
Autoren: Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Yikang Yang, Yajie Bao, Jiachen Qian, Siyu Zhu, Philip Torr, Xun Cao, Yao Yao
cs.AI

Zusammenfassung

Die Erzeugung hochauflösender 3D-Formen mithilfe volumetrischer Darstellungen wie Signed Distance Functions stellt erhebliche rechnerische und speichertechnische Herausforderungen dar. Wir stellen Direct3D S2 vor, ein skalierbares 3D-Generierungsframework, das auf spärlichen Volumina basiert und eine überlegene Ausgabequalität bei drastisch reduzierten Trainingskosten erreicht. Unsere zentrale Innovation ist der Spatial Sparse Attention-Mechanismus, der die Effizienz von Diffusion Transformer-Berechnungen auf spärlichen Volumendaten erheblich verbessert. SSA ermöglicht es dem Modell, große Tokensätze innerhalb spärlicher Volumina effektiv zu verarbeiten, wodurch der Rechenaufwand deutlich reduziert und eine 3,9-fache Beschleunigung im Vorwärtsdurchlauf sowie eine 9,6-fache Beschleunigung im Rückwärtsdurchlauf erreicht wird. Unser Framework umfasst auch einen Variational Autoencoder, der ein konsistentes spärliches Volumenformat über die Eingabe-, Latent- und Ausgabestufen hinweg beibehält. Im Vergleich zu früheren Methoden mit heterogenen Darstellungen in 3D-VAE verbessert dieses einheitliche Design die Trainings effizienz und Stabilität erheblich. Unser Modell wird auf öffentlich verfügbaren Datensätzen trainiert, und Experimente zeigen, dass Direct3D S2 nicht nur die State-of-the-Art-Methoden in Bezug auf Generierungsqualität und Effizienz übertrifft, sondern auch das Training bei einer Auflösung von 1024 mit nur 8 GPUs ermöglicht, eine Aufgabe, die typischerweise mindestens 32 GPUs für volumetrische Darstellungen bei 256 Auflösung erfordert, wodurch die Gigaskalen-3D-Generierung sowohl praktisch als auch zugänglich wird. Projektseite: https://nju3dv.github.io/projects/Direct3D-S2/.
English
Generating high resolution 3D shapes using volumetric representations such as Signed Distance Functions presents substantial computational and memory challenges. We introduce Direct3D S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention mechanism, which greatly enhances the efficiency of Diffusion Transformer computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, significantly reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://nju3dv.github.io/projects/Direct3D-S2/.

Summary

AI-Generated Summary

PDF162May 26, 2025