PartCrafter: Generazione Strutturata di Mesh 3D tramite Trasformatori a Diffusione Latente Composizionale
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
Autori: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
Abstract
Presentiamo PartCrafter, il primo modello generativo strutturato 3D che sintetizza congiuntamente più mesh 3D semanticamente significative e geometricamente distinte a partire da una singola immagine RGB. A differenza dei metodi esistenti che producono forme 3D monolitiche o seguono pipeline in due fasi, ovvero segmentando prima un'immagine e poi ricostruendo ciascun segmento, PartCrafter adotta un'architettura generativa compositiva e unificata che non si basa su input pre-segmentati. Condizionato da una singola immagine, esso denoizza simultaneamente più parti 3D, consentendo una generazione end-to-end consapevole delle parti sia per oggetti singoli che per scene complesse multi-oggetto. PartCrafter si basa su un trasformatore di diffusione di mesh 3D (DiT) pre-addestrato su oggetti interi, ereditando i pesi pre-addestrati, l'encoder e il decoder, e introduce due innovazioni chiave: (1) Uno spazio latente compositivo, in cui ciascuna parte 3D è rappresentata da un insieme di token latenti disaccoppiati; (2) Un meccanismo di attenzione gerarchica che consente un flusso strutturato di informazioni sia all'interno delle singole parti che tra tutte le parti, garantendo coerenza globale preservando al contempo i dettagli a livello di parte durante la generazione. Per supportare la supervisione a livello di parte, abbiamo curato un nuovo dataset estraendo annotazioni a livello di parte da dataset di oggetti 3D su larga scala. Gli esperimenti dimostrano che PartCrafter supera gli approcci esistenti nella generazione di mesh 3D scomponibili, incluse parti non direttamente visibili nelle immagini di input, evidenziando la forza dei priori generativi consapevoli delle parti per la comprensione e la sintesi 3D. Codice e dati di addestramento saranno rilasciati.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.