PartCrafter: Gestructureerde 3D-meshgeneratie via compositionele latente diffusietransformers
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
Auteurs: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
Samenvatting
We introduceren PartCrafter, het eerste gestructureerde 3D-generatieve model dat
meerdere semantisch betekenisvolle en geometrisch verschillende 3D-meshes
gezamenlijk synthetiseert vanuit een enkele RGB-afbeelding. In tegenstelling tot
bestaande methoden die ofwel monolithische 3D-vormen produceren ofwel tweestaps
pijplijnen volgen, d.w.z. eerst een afbeelding segmenteren en vervolgens elk
segment reconstrueren, neemt PartCrafter een uniforme, compositionele
generatie-architectuur aan die niet afhankelijk is van vooraf gesegmenteerde
invoer. Geconditioneerd op een enkele afbeelding, denoiseert het gelijktijdig
meerdere 3D-onderdelen, waardoor end-to-end part-aware generatie van zowel
individuele objecten als complexe multi-objectscènes mogelijk wordt. PartCrafter
bouwt voort op een vooraf getrainde 3D-mesh diffusie transformer (DiT) die is
getraind op hele objecten, waarbij de vooraf getrainde gewichten, encoder en
decoder worden geërfd, en introduceert twee belangrijke innovaties: (1) Een
compositionele latente ruimte, waarin elk 3D-onderdeel wordt gerepresenteerd door
een set ontvlochten latente tokens; (2) Een hiërarchisch aandachtmechanisme dat
gestructureerde informatie-uitwisseling mogelijk maakt, zowel binnen individuele
onderdelen als tussen alle onderdelen, waardoor globale samenhang wordt
gewaarborgd terwijl onderdeelniveau-detail tijdens de generatie behouden blijft.
Om toezicht op onderdeelniveau te ondersteunen, hebben we een nieuwe dataset
samengesteld door annotaties op onderdeelniveau te extraheren uit grootschalige
3D-objectdatasets. Experimenten tonen aan dat PartCrafter bestaande benaderingen
overtreft in het genereren van ontbindbare 3D-meshes, inclusief onderdelen die
niet direct zichtbaar zijn in invoerafbeeldingen, wat de kracht aantoont van
part-aware generatieve priors voor 3D-begrip en -synthese. Code en
trainingsgegevens zullen worden vrijgegeven.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.