PartCrafter: Strukturierte 3D-Mesh-Generierung durch kompositionelle latente Diffusions-Transformatoren
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
Autoren: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
Zusammenfassung
Wir stellen PartCrafter vor, das erste strukturierte 3D-Generativmodell, das mehrere semantisch bedeutungsvolle und geometrisch unterschiedliche 3D-Meshes aus einem einzelnen RGB-Bild gemeinsam synthetisiert. Im Gegensatz zu bestehenden Methoden, die entweder monolithische 3D-Formen erzeugen oder Zwei-Stufen-Pipelines verfolgen, d. h. zunächst ein Bild segmentieren und dann jedes Segment rekonstruieren, verwendet PartCrafter eine einheitliche, kompositionelle Generierungsarchitektur, die nicht auf vorsortierte Eingaben angewiesen ist. Basierend auf einem einzelnen Bild denoisiert es gleichzeitig mehrere 3D-Teile und ermöglicht so eine end-to-end teilbewusste Generierung sowohl einzelner Objekte als auch komplexer Mehr-Objekt-Szenen. PartCrafter baut auf einem vortrainierten 3D-Mesh-Diffusionstransformer (DiT) auf, der auf ganzen Objekten trainiert wurde, und übernimmt die vortrainierten Gewichte, den Encoder und den Decoder. Es führt zwei wesentliche Innovationen ein: (1) Einen kompositionellen latenten Raum, in dem jedes 3D-Teil durch eine Menge entkoppelter latenter Tokens repräsentiert wird; (2) Einen hierarchischen Aufmerksamkeitsmechanismus, der einen strukturierten Informationsfluss sowohl innerhalb einzelner Teile als auch über alle Teile hinweg ermöglicht und so globale Kohärenz sicherstellt, während gleichzeitig die Detailgenauigkeit auf Teilebene während der Generierung erhalten bleibt. Um die Überwachung auf Teilebene zu unterstützen, haben wir einen neuen Datensatz erstellt, indem wir Teilannotationen aus groß angelegten 3D-Objekt-Datensätzen extrahiert haben. Experimente zeigen, dass PartCrafter bestehende Ansätze bei der Generierung zerlegbarer 3D-Meshes übertrifft, einschließlich Teile, die in den Eingabebildern nicht direkt sichtbar sind, und demonstriert die Stärke teilbewusster generativer Prioritäten für das 3D-Verständnis und die Synthese. Code und Trainingsdaten werden veröffentlicht.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.