Direct3D-S2: Генерация 3D-моделей в гигамасштабе с легкостью благодаря пространственно-разреженному вниманию

Аннотация

Генерация высококачественных 3D-форм с использованием объемных представлений, таких как функции знаковых расстояний (Signed Distance Functions), сопряжена с существенными вычислительными и ресурсными затратами. Мы представляем Direct3D S2 — масштабируемую платформу для генерации 3D-моделей, основанную на разреженных объемных данных, которая обеспечивает превосходное качество выходных данных при значительном снижении затрат на обучение. Нашим ключевым нововведением является механизм Spatial Sparse Attention (SSA), который значительно повышает эффективность вычислений в Diffusion Transformer при работе с разреженными объемными данными. SSA позволяет модели эффективно обрабатывать большие наборы токенов в разреженных объемах, существенно снижая вычислительные затраты и обеспечивая ускорение в 3.9 раза при прямом проходе и в 9.6 раза при обратном. Наша платформа также включает вариационный автокодировщик, который поддерживает единый формат разреженных объемных данных на всех этапах: входных, скрытых и выходных. По сравнению с предыдущими методами, использующими гетерогенные представления в 3D VAE, этот унифицированный подход значительно повышает эффективность и стабильность обучения. Наша модель обучается на общедоступных наборах данных, и эксперименты показывают, что Direct3D S2 не только превосходит современные методы по качеству и эффективности генерации, но и позволяет проводить обучение с разрешением 1024, используя всего 8 графических процессоров, тогда как для объемных представлений с разрешением 256 обычно требуется не менее 32 графических процессоров. Это делает генерацию гигамасштабных 3D-моделей практичной и доступной. Страница проекта: https://nju3dv.github.io/projects/Direct3D-S2/.

English

Generating high resolution 3D shapes using volumetric representations such as Signed Distance Functions presents substantial computational and memory challenges. We introduce Direct3D S2, a scalable 3D generation framework based on sparse volumes that achieves superior output quality with dramatically reduced training costs. Our key innovation is the Spatial Sparse Attention mechanism, which greatly enhances the efficiency of Diffusion Transformer computations on sparse volumetric data. SSA allows the model to effectively process large token sets within sparse volumes, significantly reducing computational overhead and achieving a 3.9x speedup in the forward pass and a 9.6x speedup in the backward pass. Our framework also includes a variational autoencoder that maintains a consistent sparse volumetric format across input, latent, and output stages. Compared to previous methods with heterogeneous representations in 3D VAE, this unified design significantly improves training efficiency and stability. Our model is trained on public available datasets, and experiments demonstrate that Direct3D S2 not only surpasses state-of-the-art methods in generation quality and efficiency, but also enables training at 1024 resolution using only 8 GPUs, a task typically requiring at least 32 GPUs for volumetric representations at 256 resolution, thus making gigascale 3D generation both practical and accessible. Project page: https://nju3dv.github.io/projects/Direct3D-S2/.

Direct3D-S2: Генерация 3D-моделей в гигамасштабе с легкостью благодаря пространственно-разреженному вниманию

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

Аннотация

Support