BANG: Разделение 3D-активов с использованием генеративной динамики взрывного разложения

Аннотация

3D-моделирование всегда было уникальной способностью человека, обусловленной нашей возможностью деконструировать и воссоздавать объекты с помощью зрения, разума и рук. Однако современные инструменты 3D-дизайна с трудом воспроизводят этот естественный процесс, требуя значительных художественных навыков и ручного труда. В данной статье представлен BANG — новый генеративный подход, который объединяет создание 3D-моделей и логическое мышление, позволяя интуитивно и гибко декомпозировать 3D-объекты на уровне частей. Основой BANG является «Генеративная динамика разнесения», которая создает плавную последовательность разнесенных состояний для входной геометрии, постепенно разделяя части, сохраняя их геометрическую и семантическую согласованность. BANG использует предварительно обученную крупномасштабную латентную диффузионную модель, доработанную для динамики разнесения с помощью легковесного адаптера разнесенного вида, что обеспечивает точный контроль над процессом декомпозиции. Также в него включен модуль временного внимания, который гарантирует плавные переходы и согласованность во времени. BANG расширяет возможности управления с помощью пространственных подсказок, таких как ограничивающие рамки и поверхностные области, позволяя пользователям указывать, какие части декомпозировать и как. Это взаимодействие может быть расширено с использованием мультимодальных моделей, таких как GPT-4, что позволяет выполнять 2D-к-3D манипуляции для более интуитивных и творческих рабочих процессов. Возможности BANG включают генерацию детализированной геометрии на уровне частей, связывание частей с функциональными описаниями и упрощение компонентно-ориентированных процессов создания и производства 3D-моделей. Кроме того, BANG предлагает приложения в области 3D-печати, где создаются отделяемые части для удобной печати и сборки. По сути, BANG обеспечивает плавное преобразование творческих концепций в детализированные 3D-активы, предлагая новый взгляд на создание, который соответствует человеческой интуиции.

English

3D creation has always been a unique human strength, driven by our ability to deconstruct and reassemble objects using our eyes, mind and hand. However, current 3D design tools struggle to replicate this natural process, requiring considerable artistic expertise and manual labor. This paper introduces BANG, a novel generative approach that bridges 3D generation and reasoning, allowing for intuitive and flexible part-level decomposition of 3D objects. At the heart of BANG is "Generative Exploded Dynamics", which creates a smooth sequence of exploded states for an input geometry, progressively separating parts while preserving their geometric and semantic coherence. BANG utilizes a pre-trained large-scale latent diffusion model, fine-tuned for exploded dynamics with a lightweight exploded view adapter, allowing precise control over the decomposition process. It also incorporates a temporal attention module to ensure smooth transitions and consistency across time. BANG enhances control with spatial prompts, such as bounding boxes and surface regions, enabling users to specify which parts to decompose and how. This interaction can be extended with multimodal models like GPT-4, enabling 2D-to-3D manipulations for more intuitive and creative workflows. The capabilities of BANG extend to generating detailed part-level geometry, associating parts with functional descriptions, and facilitating component-aware 3D creation and manufacturing workflows. Additionally, BANG offers applications in 3D printing, where separable parts are generated for easy printing and reassembly. In essence, BANG enables seamless transformation from imaginative concepts to detailed 3D assets, offering a new perspective on creation that resonates with human intuition.

BANG: Разделение 3D-активов с использованием генеративной динамики взрывного разложения

BANG: Dividing 3D Assets via Generative Exploded Dynamics

Аннотация

Support