BANG: Aufteilung von 3D-Assets durch generative Explosionsdynamik
BANG: Dividing 3D Assets via Generative Exploded Dynamics
July 29, 2025
papers.authors: Longwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
papers.abstract
Die 3D-Erstellung war schon immer eine einzigartige menschliche Stärke, angetrieben durch unsere Fähigkeit, Objekte mit unseren Augen, unserem Geist und unseren Händen zu dekonstruieren und wieder zusammenzusetzen. Aktuelle 3D-Design-Tools haben jedoch Schwierigkeiten, diesen natürlichen Prozess nachzubilden, da sie beträchtliche künstlerische Expertise und manuelle Arbeit erfordern. Dieses Papier stellt BANG vor, einen neuartigen generativen Ansatz, der 3D-Generierung und -Logik verbindet und eine intuitive und flexible partielle Dekomposition von 3D-Objekten ermöglicht. Im Kern von BANG steht die „Generative Exploded Dynamics“, die eine flüssige Abfolge von Explosionszuständen für eine Eingabegeometrie erzeugt und dabei Teile schrittweise trennt, während ihre geometrische und semantische Kohärenz bewahrt wird.
BANG nutzt ein vortrainiertes großskaliges latentes Diffusionsmodell, das für Exploded Dynamics mit einem leichtgewichtigen Exploded-View-Adapter feinabgestimmt wurde, um eine präzise Steuerung des Dekompositionsprozesses zu ermöglichen. Es integriert zudem ein temporales Aufmerksamkeitsmodul, um flüssige Übergänge und Konsistenz über die Zeit sicherzustellen. BANG verbessert die Steuerung durch räumliche Eingabeaufforderungen wie Begrenzungsrahmen und Oberflächenbereiche, wodurch Benutzer spezifizieren können, welche Teile dekomponiert werden sollen und wie. Diese Interaktion kann mit multimodalen Modellen wie GPT-4 erweitert werden, was 2D-zu-3D-Manipulationen für intuitivere und kreativere Arbeitsabläufe ermöglicht.
Die Fähigkeiten von BANG erstrecken sich auf die Generierung detaillierter partieler Geometrien, die Zuordnung von Teilen zu funktionalen Beschreibungen und die Erleichterung von komponentenbewussten 3D-Erstellungs- und Fertigungsprozessen. Darüber hinaus bietet BANG Anwendungen im 3D-Druck, bei dem trennbare Teile für einfaches Drucken und Wiederzusammenbau erzeugt werden. Im Wesentlichen ermöglicht BANG eine nahtlose Transformation von imaginativen Konzepten zu detaillierten 3D-Assets und bietet eine neue Perspektive auf die Erstellung, die mit der menschlichen Intuition in Einklang steht.
English
3D creation has always been a unique human strength, driven by our ability to
deconstruct and reassemble objects using our eyes, mind and hand. However,
current 3D design tools struggle to replicate this natural process, requiring
considerable artistic expertise and manual labor. This paper introduces BANG, a
novel generative approach that bridges 3D generation and reasoning, allowing
for intuitive and flexible part-level decomposition of 3D objects. At the heart
of BANG is "Generative Exploded Dynamics", which creates a smooth sequence of
exploded states for an input geometry, progressively separating parts while
preserving their geometric and semantic coherence.
BANG utilizes a pre-trained large-scale latent diffusion model, fine-tuned
for exploded dynamics with a lightweight exploded view adapter, allowing
precise control over the decomposition process. It also incorporates a temporal
attention module to ensure smooth transitions and consistency across time. BANG
enhances control with spatial prompts, such as bounding boxes and surface
regions, enabling users to specify which parts to decompose and how. This
interaction can be extended with multimodal models like GPT-4, enabling
2D-to-3D manipulations for more intuitive and creative workflows.
The capabilities of BANG extend to generating detailed part-level geometry,
associating parts with functional descriptions, and facilitating
component-aware 3D creation and manufacturing workflows. Additionally, BANG
offers applications in 3D printing, where separable parts are generated for
easy printing and reassembly. In essence, BANG enables seamless transformation
from imaginative concepts to detailed 3D assets, offering a new perspective on
creation that resonates with human intuition.