BANG: Разделение 3D-активов с использованием генеративной динамики взрывного разложения
BANG: Dividing 3D Assets via Generative Exploded Dynamics
July 29, 2025
Авторы: Longwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
Аннотация
3D-моделирование всегда было уникальной способностью человека, обусловленной нашей возможностью деконструировать и воссоздавать объекты с помощью зрения, разума и рук. Однако современные инструменты 3D-дизайна с трудом воспроизводят этот естественный процесс, требуя значительных художественных навыков и ручного труда. В данной статье представлен BANG — новый генеративный подход, который объединяет создание 3D-моделей и логическое мышление, позволяя интуитивно и гибко декомпозировать 3D-объекты на уровне частей. Основой BANG является «Генеративная динамика разнесения», которая создает плавную последовательность разнесенных состояний для входной геометрии, постепенно разделяя части, сохраняя их геометрическую и семантическую согласованность.
BANG использует предварительно обученную крупномасштабную латентную диффузионную модель, доработанную для динамики разнесения с помощью легковесного адаптера разнесенного вида, что обеспечивает точный контроль над процессом декомпозиции. Также в него включен модуль временного внимания, который гарантирует плавные переходы и согласованность во времени. BANG расширяет возможности управления с помощью пространственных подсказок, таких как ограничивающие рамки и поверхностные области, позволяя пользователям указывать, какие части декомпозировать и как. Это взаимодействие может быть расширено с использованием мультимодальных моделей, таких как GPT-4, что позволяет выполнять 2D-к-3D манипуляции для более интуитивных и творческих рабочих процессов.
Возможности BANG включают генерацию детализированной геометрии на уровне частей, связывание частей с функциональными описаниями и упрощение компонентно-ориентированных процессов создания и производства 3D-моделей. Кроме того, BANG предлагает приложения в области 3D-печати, где создаются отделяемые части для удобной печати и сборки. По сути, BANG обеспечивает плавное преобразование творческих концепций в детализированные 3D-активы, предлагая новый взгляд на создание, который соответствует человеческой интуиции.
English
3D creation has always been a unique human strength, driven by our ability to
deconstruct and reassemble objects using our eyes, mind and hand. However,
current 3D design tools struggle to replicate this natural process, requiring
considerable artistic expertise and manual labor. This paper introduces BANG, a
novel generative approach that bridges 3D generation and reasoning, allowing
for intuitive and flexible part-level decomposition of 3D objects. At the heart
of BANG is "Generative Exploded Dynamics", which creates a smooth sequence of
exploded states for an input geometry, progressively separating parts while
preserving their geometric and semantic coherence.
BANG utilizes a pre-trained large-scale latent diffusion model, fine-tuned
for exploded dynamics with a lightweight exploded view adapter, allowing
precise control over the decomposition process. It also incorporates a temporal
attention module to ensure smooth transitions and consistency across time. BANG
enhances control with spatial prompts, such as bounding boxes and surface
regions, enabling users to specify which parts to decompose and how. This
interaction can be extended with multimodal models like GPT-4, enabling
2D-to-3D manipulations for more intuitive and creative workflows.
The capabilities of BANG extend to generating detailed part-level geometry,
associating parts with functional descriptions, and facilitating
component-aware 3D creation and manufacturing workflows. Additionally, BANG
offers applications in 3D printing, where separable parts are generated for
easy printing and reassembly. In essence, BANG enables seamless transformation
from imaginative concepts to detailed 3D assets, offering a new perspective on
creation that resonates with human intuition.