PartCrafter : Génération de maillages 3D structurés via des transformeurs de diffusion latente compositionnelle
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
Auteurs: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
Résumé
Nous présentons PartCrafter, le premier modèle génératif 3D structuré qui synthétise conjointement plusieurs maillages 3D sémantiquement significatifs et géométriquement distincts à partir d'une seule image RVB. Contrairement aux méthodes existantes qui produisent soit des formes 3D monolithiques, soit suivent des pipelines en deux étapes (c'est-à-dire, segmentant d'abord une image puis reconstruisant chaque segment), PartCrafter adopte une architecture générative unifiée et compositionnelle qui ne repose pas sur des entrées pré-segmentées. Conditionné par une seule image, il débruite simultanément plusieurs parties 3D, permettant une génération consciente des parties de manière end-to-end, aussi bien pour des objets individuels que pour des scènes multi-objets complexes. PartCrafter s'appuie sur un transformateur de diffusion de maillage 3D pré-entraîné (DiT) formé sur des objets entiers, héritant des poids pré-entraînés, de l'encodeur et du décodeur, et introduit deux innovations clés : (1) Un espace latent compositionnel, où chaque partie 3D est représentée par un ensemble de tokens latents désentrelacés ; (2) Un mécanisme d'attention hiérarchique qui permet un flux d'information structuré à la fois au sein des parties individuelles et entre toutes les parties, assurant une cohérence globale tout en préservant les détails au niveau des parties lors de la génération. Pour soutenir la supervision au niveau des parties, nous avons constitué un nouveau jeu de données en extrayant des annotations au niveau des parties à partir de grands ensembles de données d'objets 3D. Les expériences montrent que PartCrafter surpasse les approches existantes dans la génération de maillages 3D décomposables, y compris des parties qui ne sont pas directement visibles dans les images d'entrée, démontrant la puissance des a priori génératifs conscients des parties pour la compréhension et la synthèse 3D. Le code et les données d'entraînement seront publiés.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.