ChatPaper.aiChatPaper

PartCrafter: Gestructureerde 3D-meshgeneratie via compositionele latente diffusietransformers

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

June 5, 2025
Auteurs: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI

Samenvatting

We introduceren PartCrafter, het eerste gestructureerde 3D-generatieve model dat meerdere semantisch betekenisvolle en geometrisch verschillende 3D-meshes gezamenlijk synthetiseert vanuit een enkele RGB-afbeelding. In tegenstelling tot bestaande methoden die ofwel monolithische 3D-vormen produceren ofwel tweestaps pijplijnen volgen, d.w.z. eerst een afbeelding segmenteren en vervolgens elk segment reconstrueren, neemt PartCrafter een uniforme, compositionele generatie-architectuur aan die niet afhankelijk is van vooraf gesegmenteerde invoer. Geconditioneerd op een enkele afbeelding, denoiseert het gelijktijdig meerdere 3D-onderdelen, waardoor end-to-end part-aware generatie van zowel individuele objecten als complexe multi-objectscènes mogelijk wordt. PartCrafter bouwt voort op een vooraf getrainde 3D-mesh diffusie transformer (DiT) die is getraind op hele objecten, waarbij de vooraf getrainde gewichten, encoder en decoder worden geërfd, en introduceert twee belangrijke innovaties: (1) Een compositionele latente ruimte, waarin elk 3D-onderdeel wordt gerepresenteerd door een set ontvlochten latente tokens; (2) Een hiërarchisch aandachtmechanisme dat gestructureerde informatie-uitwisseling mogelijk maakt, zowel binnen individuele onderdelen als tussen alle onderdelen, waardoor globale samenhang wordt gewaarborgd terwijl onderdeelniveau-detail tijdens de generatie behouden blijft. Om toezicht op onderdeelniveau te ondersteunen, hebben we een nieuwe dataset samengesteld door annotaties op onderdeelniveau te extraheren uit grootschalige 3D-objectdatasets. Experimenten tonen aan dat PartCrafter bestaande benaderingen overtreft in het genereren van ontbindbare 3D-meshes, inclusief onderdelen die niet direct zichtbaar zijn in invoerafbeeldingen, wat de kracht aantoont van part-aware generatieve priors voor 3D-begrip en -synthese. Code en trainingsgegevens zullen worden vrijgegeven.
English
We introduce PartCrafter, the first structured 3D generative model that jointly synthesizes multiple semantically meaningful and geometrically distinct 3D meshes from a single RGB image. Unlike existing methods that either produce monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an image and then reconstructing each segment, PartCrafter adopts a unified, compositional generation architecture that does not rely on pre-segmented inputs. Conditioned on a single image, it simultaneously denoises multiple 3D parts, enabling end-to-end part-aware generation of both individual objects and complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh diffusion transformer (DiT) trained on whole objects, inheriting the pretrained weights, encoder, and decoder, and introduces two key innovations: (1) A compositional latent space, where each 3D part is represented by a set of disentangled latent tokens; (2) A hierarchical attention mechanism that enables structured information flow both within individual parts and across all parts, ensuring global coherence while preserving part-level detail during generation. To support part-level supervision, we curate a new dataset by mining part-level annotations from large-scale 3D object datasets. Experiments show that PartCrafter outperforms existing approaches in generating decomposable 3D meshes, including parts that are not directly visible in input images, demonstrating the strength of part-aware generative priors for 3D understanding and synthesis. Code and training data will be released.
PDF605June 9, 2025