Van Eén naar Meer: Contextuele Deellatenten voor 3D-generatie
From One to More: Contextual Part Latents for 3D Generation
July 11, 2025
Auteurs: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI
Samenvatting
Recente ontwikkelingen in 3D-generatie zijn overgegaan van multi-view 2D-renderingbenaderingen naar 3D-native latent diffusion frameworks die gebruikmaken van geometrische priors in grondwaarheidsgegevens. Ondanks de vooruitgang blijven drie belangrijke beperkingen bestaan: (1) Enkele latentrepresentaties slagen er niet in complexe multi-part geometrieën vast te leggen, wat leidt tot detailverlies; (2) Holistische latentcodering negeert deelonafhankelijkheid en onderlinge relaties die cruciaal zijn voor compositioneel ontwerp; (3) Globale conditioneringsmechanismen missen fijnmazige bestuurbaarheid. Geïnspireerd door menselijke 3D-ontwerpwerkstromen stellen we CoPart voor - een part-aware diffusion framework dat 3D-objecten decomposeert in contextuele deel-latents voor coherente multi-part generatie. Dit paradigma biedt drie voordelen: i) Vermindert coderingscomplexiteit door part-decompositie; ii) Maakt expliciete modellering van deelrelaties mogelijk; iii) Ondersteunt part-level conditionering. We ontwikkelen verder een mutual guidance-strategie om vooraf getrainde diffusion models af te stemmen voor gezamenlijke part-latent denoising, wat zowel geometrische coherentie als foundation model priors waarborgt. Om grootschalige training mogelijk te maken, construeren we Partverse - een nieuwe 3D-partdataset afgeleid van Objaverse door geautomatiseerde mesh-segmentatie en door mensen geverifieerde annotaties. Uitgebreide experimenten tonen de superieure mogelijkheden van CoPart aan in part-level bewerking, gearticuleerde objectgeneratie en scènecompositie met ongekende bestuurbaarheid.
English
Recent advances in 3D generation have transitioned from multi-view 2D
rendering approaches to 3D-native latent diffusion frameworks that exploit
geometric priors in ground truth data. Despite progress, three key limitations
persist: (1) Single-latent representations fail to capture complex multi-part
geometries, causing detail degradation; (2) Holistic latent coding neglects
part independence and interrelationships critical for compositional design; (3)
Global conditioning mechanisms lack fine-grained controllability. Inspired by
human 3D design workflows, we propose CoPart - a part-aware diffusion framework
that decomposes 3D objects into contextual part latents for coherent multi-part
generation. This paradigm offers three advantages: i) Reduces encoding
complexity through part decomposition; ii) Enables explicit part relationship
modeling; iii) Supports part-level conditioning. We further develop a mutual
guidance strategy to fine-tune pre-trained diffusion models for joint part
latent denoising, ensuring both geometric coherence and foundation model
priors. To enable large-scale training, we construct Partverse - a novel 3D
part dataset derived from Objaverse through automated mesh segmentation and
human-verified annotations. Extensive experiments demonstrate CoPart's superior
capabilities in part-level editing, articulated object generation, and scene
composition with unprecedented controllability.