BANG : Division d'actifs 3D via des dynamiques d'explosion génératives
BANG: Dividing 3D Assets via Generative Exploded Dynamics
July 29, 2025
papers.authors: Longwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
papers.abstract
La création 3D a toujours été une force unique de l’être humain, alimentée par notre capacité à déconstruire et à réassembler des objets en utilisant nos yeux, notre esprit et nos mains. Cependant, les outils actuels de conception 3D peinent à reproduire ce processus naturel, nécessitant une expertise artistique considérable et un travail manuel important. Cet article présente BANG, une nouvelle approche générative qui fait le lien entre la génération 3D et le raisonnement, permettant une décomposition intuitive et flexible des objets 3D au niveau des parties. Au cœur de BANG se trouve la « Dynamique Explosée Générative », qui crée une séquence fluide d’états explosés pour une géométrie d’entrée, séparant progressivement les parties tout en préservant leur cohérence géométrique et sémantique.
BANG utilise un modèle de diffusion latente à grande échelle pré-entraîné, affiné pour la dynamique explosée avec un adaptateur léger de vue explosée, permettant un contrôle précis du processus de décomposition. Il intègre également un module d’attention temporelle pour assurer des transitions fluides et une cohérence dans le temps. BANG améliore le contrôle avec des invites spatiales, telles que des boîtes englobantes et des régions de surface, permettant aux utilisateurs de spécifier quelles parties décomposer et comment. Cette interaction peut être étendue avec des modèles multimodaux comme GPT-4, permettant des manipulations 2D-à-3D pour des flux de travail plus intuitifs et créatifs.
Les capacités de BANG s’étendent à la génération de géométries détaillées au niveau des parties, à l’association des parties avec des descriptions fonctionnelles, et à la facilitation de flux de travail de création et de fabrication 3D conscients des composants. De plus, BANG offre des applications dans l’impression 3D, où des parties séparables sont générées pour une impression et un réassemblage faciles. En essence, BANG permet une transformation fluide des concepts imaginatifs vers des actifs 3D détaillés, offrant une nouvelle perspective sur la création qui résonne avec l’intuition humaine.
English
3D creation has always been a unique human strength, driven by our ability to
deconstruct and reassemble objects using our eyes, mind and hand. However,
current 3D design tools struggle to replicate this natural process, requiring
considerable artistic expertise and manual labor. This paper introduces BANG, a
novel generative approach that bridges 3D generation and reasoning, allowing
for intuitive and flexible part-level decomposition of 3D objects. At the heart
of BANG is "Generative Exploded Dynamics", which creates a smooth sequence of
exploded states for an input geometry, progressively separating parts while
preserving their geometric and semantic coherence.
BANG utilizes a pre-trained large-scale latent diffusion model, fine-tuned
for exploded dynamics with a lightweight exploded view adapter, allowing
precise control over the decomposition process. It also incorporates a temporal
attention module to ensure smooth transitions and consistency across time. BANG
enhances control with spatial prompts, such as bounding boxes and surface
regions, enabling users to specify which parts to decompose and how. This
interaction can be extended with multimodal models like GPT-4, enabling
2D-to-3D manipulations for more intuitive and creative workflows.
The capabilities of BANG extend to generating detailed part-level geometry,
associating parts with functional descriptions, and facilitating
component-aware 3D creation and manufacturing workflows. Additionally, BANG
offers applications in 3D printing, where separable parts are generated for
easy printing and reassembly. In essence, BANG enables seamless transformation
from imaginative concepts to detailed 3D assets, offering a new perspective on
creation that resonates with human intuition.